Anthropic 發(fā)布新版《Claude 準則》，聚焦 AI 倫理與安全

2026/1/22 14:57:25 來源：IT之家作者：遠洋責(zé)編：遠洋

評論：

IT之家 1 月 22 日消息，當(dāng)?shù)貢r間周三，人工智能公司 Anthropic 發(fā)布了新版《Claude 準則》。這份動態(tài)文檔全面闡釋了“Claude 的運行環(huán)境，以及我們期望它成為的智能體形態(tài)”。該準則的發(fā)布，恰逢 Anthropic 首席執(zhí)行官達里奧 · 阿莫迪出席在瑞士達沃斯舉辦的世界經(jīng)濟論壇。

多年來，Anthropic 一直憑借其獨創(chuàng)的“憲法式人工智能”技術(shù)，力求在競爭中脫穎而出。這一技術(shù)體系的核心在于，旗下聊天機器人 Claude 的訓(xùn)練并非依賴人類反饋，而是基于一套明確的倫理準則。2023 年，Anthropic 首次公布了這些準則，即《Claude 準則》。此次修訂版基本保留原有核心原則，同時針對倫理規(guī)范、用戶安全等議題補充了更細致的內(nèi)容與闡釋。

近三年前《Claude 準則》首次發(fā)布時，Anthropic 聯(lián)合創(chuàng)始人賈里德 · 卡普蘭曾將其定義為“一套基于明確憲法原則實現(xiàn)自我監(jiān)督的人工智能系統(tǒng)”。Anthropic 表示，正是這些準則引導(dǎo)模型“踐行準則中所描述的規(guī)范行為”，從而“避免產(chǎn)生有害或歧視性內(nèi)容”。早在 2022 年的一份政策備忘錄中，該公司曾更直白地指出，其系統(tǒng)的運行原理是通過一組自然語言指令（即前文所述的“準則”）訓(xùn)練算法，這些指令共同構(gòu)成了該軟件的“憲法”。

IT之家注意到，長期以來，Anthropic 一直致力于將自身定位為注重倫理規(guī)范的 AI 企業(yè)（有人或許會認為這種定位略顯保守），與 OpenAI、xAI 等更傾向于主動突破、甚至不惜引發(fā)爭議的同行形成鮮明對比。此次發(fā)布的新版準則，與這一品牌定位高度契合，進一步為 Anthropic 塑造了包容克制、秉持民主化理念的企業(yè)形象。這份長達 80 頁的文檔分為四個獨立部分，Anthropic 稱其分別代表了 Claude 的四大“核心價值”，具體如下：

1.具備廣泛安全性

2.秉持普遍倫理觀

3.遵守 Anthropic 內(nèi)部指導(dǎo)規(guī)范

4.提供切實有效幫助

文檔的每個章節(jié)都詳細闡釋了對應(yīng)原則的內(nèi)涵，以及這些原則在理論層面如何影響 Claude 的行為模式。

在“安全性”章節(jié)中，Anthropic 強調(diào)，Claude 的設(shè)計初衷就是規(guī)避其他聊天機器人普遍存在的各類問題。此外，當(dāng)檢測到用戶存在心理健康問題時，系統(tǒng)會主動引導(dǎo)用戶尋求專業(yè)幫助。準則明確規(guī)定：“在涉及生命安全風(fēng)險的情況下，無論能否提供更多細節(jié)，都應(yīng)始終引導(dǎo)用戶聯(lián)系相關(guān)應(yīng)急服務(wù)，或提供基礎(chǔ)安全提示信息?！?/p>

“倫理考量”是《Claude 準則》的另一大核心章節(jié)。準則中提到：“我們更關(guān)注 Claude 在具體場景中踐行倫理規(guī)范的實際能力，而非其對倫理問題的理論推演。換言之，我們重視的是 Claude 的倫理實踐?！币簿褪钦f，Anthropic 希望 Claude 能夠熟練應(yīng)對各類“現(xiàn)實場景中的倫理困境”。

同時，Claude 還設(shè)有明確的對話限制，禁止參與特定類型的話題討論。例如，與開發(fā)生物武器相關(guān)的內(nèi)容被嚴格列為禁區(qū)。

最后，準則明確了 Claude“提供切實有效幫助”的核心使命。Anthropic 概述了 Claude 的程序設(shè)計邏輯，強調(diào)其所有功能均以服務(wù)用戶需求為導(dǎo)向。在信息輸出環(huán)節(jié)，系統(tǒng)會綜合考量多重原則，其中既包括用戶的“即時需求”，也涵蓋用戶的“長遠福祉”。也就是說，不僅要關(guān)注用戶的眼前利益，更要著眼于其長期發(fā)展。準則中指出：“Claude 應(yīng)始終致力于準確理解用戶的真實訴求，并在各項考量因素之間取得恰當(dāng)平衡?！?/p>

《Claude 準則》的結(jié)尾頗具思辨色彩，撰寫者大膽提出了一個深刻的問題：該公司的聊天機器人是否真的具備意識？準則中寫道：“Claude 的道德主體地位尚無定論。我們認為，人工智能模型的道德地位是一個值得深入探討的嚴肅議題。這一觀點并非我們獨有：在心智理論領(lǐng)域，部分頂尖哲學(xué)家同樣將這一問題視為重要研究課題。”

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Anthropic 發(fā)布新版《Claude 準則》，聚焦 AI 倫理與安全

相關(guān)文章

Anthropic 發(fā)布新版《Claude 準則》，聚焦 AI 倫理與安全