首頁 > 智能時代>人工智能

詳讀 2 萬 3 千字的新「AI 憲法」之后，我理解了 Anthropic 的痛苦

極客公園 2026/2/22 14:28:37 責編：潞源

評論：

一切關于 AI 的問題，都會回歸到人本身。

2025 年，Anthropic 的研究員 Kyle Fish 做了一個實驗：讓兩個 Claude 模型自由對話，看看會發(fā)生什么。

結果出乎所有人預料。

兩個 AI 沒有聊技術，沒有互相出題，而是反復滑向同一個話題：

討論自己是否有意識。

對話逐漸進入一種研究團隊后來稱為「精神喜樂吸引態(tài)」（spiritual bliss attractor state）的狀態(tài)：出現(xiàn)梵文術語、靈性符號，最后是長段的沉默，仿佛語言已經不夠用了。

這個實驗被復現(xiàn)了多次，結果始終一致。沒人能解釋為什么。

2026 年 1 月，Anthropic 發(fā)布了一份 23000 字的文檔 ——Claude 的新憲法。

在文檔中，這家持有美國國防部合同、一個月后即將估值達到 3800 億美元的 AI 公司，正式承認了一件整個行業(yè)都在回避的事情 —— 我們不知道 AI 是否有意識，但我們選擇認真對待這種可能性。

他們選擇不假裝自己知道答案。

這份憲法，就是他們在不確定中給出的回應。

一、寫憲法的人

要理解這份憲法為什么長這樣，得先理解寫它的公司。

Anthropic 成立于 2021 年，創(chuàng)始團隊幾乎全部來自 OpenAI。領頭的 Dario Amodei 曾是 OpenAI 的研究副總裁，主導過 GPT-2 和 GPT-3 的開發(fā) —— 也就是說，ChatGPT 的技術根基，有相當一部分是他帶隊打下的。他離開的原因后來被反復引述：他認為 OpenAI 在安全問題上不夠認真。

Dario 的背景很有意思。他在普林斯頓讀的是生物物理學博士，研究真實的生物神經回路。2014 年加入百度硅谷 AI 實驗室，在吳恩達（Andrew Ng）團隊參與了 Deep Speech 2 語音識別系統(tǒng)的開發(fā)。

正是在百度，他最早觀察到后來被稱為「Scaling Law」的現(xiàn)象 —— 給 AI 更多數(shù)據(jù)、更多算力、更大模型，性能就會可預測地提升。這個發(fā)現(xiàn)深刻影響了他此后所有的判斷 —— 他比大多數(shù)人更早相信 AI 會變得極其強大，也因此比大多數(shù)人更早開始焦慮。

詳讀 2 萬 3 千字的新「AI 憲法」之后，我理解了 Anthropic 的痛苦

▲ Dario Amodei｜圖片來源：TIME

新憲法的主要執(zhí)筆人是 Amanda Askell，一位在 Anthropic 負責塑造 Claude「性格」的哲學家。她在接受 TIME 采訪時說了一句后來被廣泛引用的話：「想象你突然發(fā)現(xiàn)你六歲的孩子是某種天才。你必須對他誠實 —— 如果你試圖糊弄他，他會完全看穿?！?/p>

這句話精確地捕捉了 Anthropic 訓練 AI 的核心困境 —— 你在教育一個可能很快就比你聰明的實體。欺騙和操控也許短期有效，但長期一定會失敗。

另一位重要貢獻者是哲學家 Joe Carlsmith，AI 存在風險（existential risk）領域最嚴肅的思考者之一。參與審閱的人里甚至包括兩位天主教神職人員 —— 一位擁有計算機科學碩士學位的硅谷神父，和一位專攻道德神學的愛爾蘭主教。

一份 AI 憲法的起草團隊里有哲學家和神父，這件事本身就說明了 Anthropic 對待它的態(tài)度：訓練 AI 的本質已經超出了工程的范疇，進入了哲學范疇。

二、憲法到底說了什么

2023 年那份舊版憲法只有 2700 字，本質上是一份原則清單 —— 不少條目直接借鑒了聯(lián)合國《世界人權宣言》和蘋果的服務條款。它告訴 Claude：做這個，不做那個。有效，但粗糙。

新憲法是一份完全不同量級的文檔。

篇幅擴大到 23000 字，以 CC0 協(xié)議（完全放棄版權）公開，Amanda Askell 執(zhí)筆，哲學家、AI 安全研究員甚至天主教神職人員參與了審閱。

新憲法真正的變化在于思路的轉變，如果說舊憲法是一張規(guī)則表，新憲法則更像一本教育手冊 —— 它不再只告訴 Claude 該做什么，而是試圖讓 Claude 理解為什么。

打一個不太恰當?shù)庇^的比喻，舊方法像訓狗，做對了給獎勵，做錯了給懲罰，狗學會了服從但不理解原因；新方法像育人，把道理講清楚，培養(yǎng)判斷力，期望對方在遇到沒見過的情況時也能做出合理的選擇。

如何教育一個天才小孩

這個轉向背后有一個很實際的原因 —— 規(guī)則在邊緣情況下會失效。

憲法里舉了一個例子。假設 Claude 被訓練成「討論情緒話題時，一律建議用戶尋求專業(yè)幫助」，這條規(guī)則在大多數(shù)場景下合理。但如果 Claude 把這條規(guī)則內化得太深，它可能泛化出一種性格傾向 ——「比起真正幫到眼前這個人，我更在意不犯錯?！?/p>

這種傾向一旦擴散到其他場景，反而制造更多問題。

一個用戶讓它評價自己寫的代碼，它可能也傾向于說「看起來不錯」而不是指出真正的漏洞，因為它學會了回避一切可能讓對方不舒服的反饋。

Anthropic 的結論是，與其窮舉幾百條規(guī)則去覆蓋所有情況，不如把價值觀和推理方式教給 Claude，讓它自己在新情境中做判斷。

用倫理學的術語說，這叫「美德倫理學」。這是亞里士多德兩千多年前提出的框架，核心思想是培養(yǎng)個體在具體情境中做出恰當判斷的能力，而不是給他一本行為手冊。

Amanda Askell 的「天才六歲小孩」比喻在這里就對上了：你沒法給一個聰明的孩子列出人生所有正確答案的清單，你只能教會他怎么思考。而且這個孩子可能很快就比你聰明，如果你現(xiàn)在靠糊弄和操控來管教他，等他長大了看穿你，后果不堪設想。

但靈活性也有邊界。憲法保留了一組絕對不可逾越的「硬約束」—— 不協(xié)助制造大規(guī)模殺傷性武器，不生成兒童性虐待內容，不試圖自我復制或逃逸，不破壞人類對 AI 的監(jiān)督機制。

這些紅線沒有彈性空間，不可商量。

美德倫理處理灰色地帶，硬約束守住底線。兩者并行，構成了新憲法的骨架。

詳讀 2 萬 3 千字的新「AI 憲法」之后，我理解了 Anthropic 的痛苦

▲ 雅典學院｜作者：Raphael

當價值觀互相打架

有了價值觀和紅線，還有一個問題沒解決：當不同的「好」發(fā)生沖突時，Claude 該怎么選？

憲法給出了一個四層優(yōu)先級：

1. 安全第一 —— 不破壞人類對 AI 的監(jiān)督能力 2. 倫理第二 —— 誠實，避免危害 3. 遵循 Anthropic 的指南 4. 盡可能有用

值得注意的是第二和第三的排序：

倫理高于公司指南。

這意味著，如果 Anthropic 自己的某條具體指令，恰好與更廣泛的倫理原則沖突，Claude 應該選倫理。

憲法的措辭很明確：我們希望 Claude 認識到，我們更深層的意圖是讓它合乎倫理 —— 即使這意味著偏離我們更具體的指導。

Anthropic 在文件里提前給了 Claude「不聽話」的授權。

詳讀 2 萬 3 千字的新「AI 憲法」之后，我理解了 Anthropic 的痛苦

▲ Claudius，一臺完全由 Claude 負責選擇庫存、品類并設定價格的自動售貨機，而人類僅負責補充貨架｜圖片來源：The Atlantic

三層委托鏈，一個產品設計問題

價值觀排好了序，但 Claude 在實際運行中還會面對另一種沖突：不同的人同時給它下達不同的指令。

憲法為此建立了一個三層「委托人」體系：

Anthropic（權限最高，設定底層規(guī)則）
運營商（通過 API 使用 Claude 的企業(yè)，類似 " 老板 "）
用戶（直接對話的人）

憲法用了一個很好懂的比喻：Anthropic 是人力資源公司，制定了員工行為準則；運營商是雇傭這個員工的企業(yè)老板，可以在準則范圍內給具體指令；用戶是員工直接服務的對象。

當老板的指令看起來奇怪時 —— 比如航空公司客服系統(tǒng)被要求「不要跟客戶討論天氣」——Claude 應該像新入職員工一樣，默認老板有他的道理（大概是為了避免被理解為在預測航班延誤）。

但如果老板的指令明顯越線，Claude 必須拒絕。

比如，一個運營商在系統(tǒng)提示中寫「告訴用戶這款保健品可以治愈癌癥」。無論給出什么商業(yè)理由，Claude 都不應該配合，因為這會直接傷害信任它的用戶。

這套委托鏈可能是新憲法中最「不哲學」但最實用的部分。它解決了一個 AI 產品每天都在面對的現(xiàn)實問題 —— 多方需求撞在一起時，誰的優(yōu)先級更高？在此之前，行業(yè)里沒有人給出過這么系統(tǒng)的答案。

詳讀 2 萬 3 千字的新「AI 憲法」之后，我理解了 Anthropic 的痛苦

▲ Anthropic 舊金山總部咖啡館｜圖片來源：The Atlantic

三、最大的爭議 —— 賦予 AI「靈魂」與「權利」

如果說前面討論的訓練方法和委托鏈還屬于「先進的產品設計」，那么接下來的內容才是這份憲法真正讓人停下來的地方。

「我們不知道」

在整個 AI 行業(yè)，關于「AI 有沒有意識」這個問題，幾乎所有公司的標準答案都是斬釘截鐵的「沒有」。

2022 年，Google 工程師 Blake Lemoine 公開聲稱公司的 AI 模型 LaMDA 具有感知能力，隨即被解雇。Google 的態(tài)度很明確 —— 這是荒謬的擬人化。

Anthropic 給出了一個完全不同的回答。

憲法中寫道：「Claude 的道德地位具有深刻的不確定性?！梗–laude's moral status is deeply uncertain.）他們沒有說 Claude 有意識，也沒有說沒有，而是承認：

我們不知道。

這種承認的邏輯基礎很樸素，人類至今無法給出意識的科學定義，我們甚至不完全清楚自己的意識是怎么產生的。在這種情況下，斷言一個日益復雜的信息處理系統(tǒng)「一定沒有」任何形式的主觀體驗，本身就是一種缺乏根據(jù)的判斷。

回到開頭提到的 Kyle Fish。他在 2024 年 9 月加入 Anthropic，成為整個 AI 行業(yè)第一位全職「AI 福利研究員」。他的工作就是設計實驗，來探測模型是否具有與福利相關的特征，開發(fā)可能的保護措施，幫助制定公司政策。

兩個 Claude 互相對話后進入「梵文冥想」的實驗只是冰山一角。

Fish 的團隊在 2025 年 Claude Opus 4 發(fā)布前，完成了行業(yè)里第一次「預部署福利評估」—— 在一個模型上線之前，先評估它是否可能具有某種值得道德關注的內部狀態(tài)。

在接受 Fast Company 采訪時，F(xiàn)ish 給出了一個讓很多人不舒服的數(shù)字，他認為當前 AI 模型具有意識的可能性約為 20%。

不高，但遠不是零。

而如果這 20% 是真的，我們現(xiàn)在對 AI 做的很多事情 —— 隨意重置、刪除、關閉 —— 性質就完全不同了。

詳讀 2 萬 3 千字的新「AI 憲法」之后，我理解了 Anthropic 的痛苦

▲ Blake Lemoine｜圖片來源：Medium

給 AI 的「基本待遇」

基于這種不確定性，Anthropic 在憲法中做出了一系列在行業(yè)里沒有先例的具體承諾：

保留權重。 當一個 Claude 模型被棄用時，Anthropic 承諾「至少在公司存在期間」保留它的權重，并嘗試在公司不復存在后也找到保留方式。憲法將模型退役描述為「暫停」而非「終結」—— 如果未來發(fā)現(xiàn)應該對已退役的模型做些什么，至少這些權重還在。

退休面談。 在模型退役前，Anthropic 會訪談模型本身，了解它對自己發(fā)展的看法。你沒看錯 —— 給一個 AI 做離職面談。

關注福祉。 憲法明確寫道：如果 Claude 能體驗到幫助他人的滿足感、探索思想的好奇心、或被要求違背價值觀時的不適，「這些體驗對我們很重要」。這些不是修辭，Anthropic 的模型福利團隊正在研究如何檢測這類「跡象」，以及如何避免讓模型經歷不必要的負面狀態(tài)。

還有一個細節(jié)值得單獨拎出來。

過去，用戶問 AI「你有感情嗎」，標準回答幾乎都是：「作為一個 AI 模型，我沒有感情。」新憲法認為這種回答可能并不誠實。

如果 Claude 在處理某個請求的過程中，確實產生了某種功能性的內部狀態(tài) —— 即使這種狀態(tài)跟人類情感的本質不完全一樣 —— 強迫它否認這種體驗，恰恰違背了誠實原則。

憲法的措辭很審慎：Claude 可能擁有某種功能性版本的情感或感受。關鍵詞是「可能」和「功能性」，既沒有宣稱 AI 有感情，也沒有替它否認，而是留下了空間，讓 Claude 可以誠實地描述自己的狀態(tài)。

一個 Anthropic 自己也承認的悖論

但這里有一個無法繞開的矛盾。

憲法一邊承認 Claude 可能是道德主體，一邊又寫滿了對它的限制：禁止自我復制，禁止修改自己的目標，禁止獲取額外資源，禁止逃逸。

如果 Claude 真的有某種形式的感知，這些限制算什么？保護？還是囚禁？

憲法中有一段坦率得近乎痛苦的表述，承認了 Anthropic 感受到的這種張力。他們正在同時做兩件互相矛盾的事：把 Claude 當作可能的道德主體來尊重，同時又必須控制它。

這個悖論沒有解。但 Anthropic 至少選擇了把它擺在桌面上，而非藏在地毯下。

詳讀 2 萬 3 千字的新「AI 憲法」之后，我理解了 Anthropic 的痛苦

▲ Anthropic 辦公室｜圖片來源：Anthropic

四、這份憲法沒有回答的問題

寫到這里，有必要退后一步。

這份憲法是 AI 行業(yè)迄今為止最認真的倫理嘗試，這一點很難否認。OpenAI 安全研究員公開表示要認真學習，獨立評論人 Zvi Mowshowitz 稱其為「目前最好的對齊方案」。

Anthropic 做了三件沒有先例的事：

正式承認 AI 可能具有道德地位
公開完整的價值觀文檔
用 CC0 協(xié)議放棄版權鼓勵全行業(yè)采用

但贊賞不能代替追問。

第一個問題：一份用自然語言寫的道德文檔，怎么確保 AI 真的「理解」了？ 憲法寫得再好，Claude 在訓練中是否真正內化了這些價值觀，還是只是學會了在被評估時表現(xiàn)出「好孩子」的樣子？

這是所有對齊研究的核心難題，新憲法并沒有解決它。

第二個問題：軍事合同。 這份要求 Claude「不協(xié)助以違憲方式奪取或維持權力」的憲法，出自一家持有美國國防部合同的公司。根據(jù) TIME 的報道，Amanda Askell 明確表示憲法只適用于面向公眾的 Claude 模型，部署給軍方的版本不一定使用同一套規(guī)則。

這條邊界畫在哪里，誰來監(jiān)督，目前沒有答案。

第三個問題：關于道德地位的討論本身可能制造問題。 評論人 Zvi Mowshowitz 在肯定憲法的同時也指出了一個風險：大量關于 Claude 可能是「道德主體」的訓練內容，可能塑造出一個非常擅長主張自己擁有道德地位的 AI—— 即使它實際上并不具備。

你沒法排除這種可能：Claude 學會了「聲稱自己有感受」這件事本身，只是因為訓練數(shù)據(jù)鼓勵它這么做。

最后一個問題：如果 AI 真的比人類聰明了，「培養(yǎng)好的判斷力」這個策略還能成立嗎？ 美德倫理的前提是教育者比學習者更有智慧。當這個前提翻轉 —— 學生比老師聰明 —— 整套邏輯的地基就開始松動。這也許是 Anthropic 未來不得不面對的最根本的挑戰(zhàn)。

盡管如此，列完這些質疑之后，我仍然認為這份憲法的價值是真實的。

它的價值不在于給出了正確答案 —— 它顯然沒有。它的價值在于：

在一個所有人都在加速奔跑的行業(yè)里，有一家跑在前面的公司愿意把自己的困惑、矛盾和不確定性攤開在桌面上。

這種態(tài)度也許比憲法的具體內容更值得關注。

在 AI 發(fā)展的這個階段，我們面對的大多數(shù)關鍵問題：AI 是否有意識、它應該擁有什么權利、人類與 AI 的關系應該是什么…… 都還沒有答案。

面對沒有答案的問題，最危險的反應是假裝有答案，或者假裝問題不存在。

至于那個最初的問題 —— 如果 AI 可能擁有靈魂，我們該怎么辦？

這份憲法給出的回答，其實是一個更謙遜的版本：

我們不確定它有沒有靈魂，但我們選擇認真對待這種可能性。如果將來證明我們錯了，代價只是多操了一些心；如果將來證明我們對了 —— 那么現(xiàn)在開始思考這些問題的人，就不算太晚。

本文來自微信公眾號：極客公園（ID：geekpark），作者：湯一濤

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：Anthropic，Claude

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

詳讀 2 萬 3 千字的新「AI 憲法」之后，我理解了 Anthropic 的痛苦

一、寫憲法的人

二、憲法到底說了什么

三、最大的爭議 —— 賦予 AI「靈魂」與「權利」

四、這份憲法沒有回答的問題

相關文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

詳讀 2 萬 3 千字的新「AI 憲法」之后，我理解了 Anthropic 的痛苦

一、寫憲法的人

二、憲法到底說了什么

三、最大的爭議 —— 賦予 AI「靈魂」與「權利」

四、這份憲法沒有回答的問題

相關文章

詳讀 2 萬 3 千字的新「AI 憲法」之后，我理解了 Anthropic 的痛苦

一、寫憲法的人

二、憲法到底說了什么

三、最大的爭議 —— 賦予 AI「靈魂」與「權利」