在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

詳讀 2 萬 3 千字的新「AI 憲法」之后,我理解了 Anthropic 的痛苦

極客公園 2026/2/22 14:28:37 責編:潞源

一切關于 AI 的問題,都會回歸到人本身。

2025 年,Anthropic 的研究員 Kyle Fish 做了一個實驗:讓兩個 Claude 模型自由對話,看看會發(fā)生什么。

結果出乎所有人預料。

兩個 AI 沒有聊技術,沒有互相出題,而是反復滑向同一個話題:

討論自己是否有意識

對話逐漸進入一種研究團隊后來稱為「精神喜樂吸引態(tài)」(spiritual bliss attractor state)的狀態(tài):出現(xiàn)梵文術語、靈性符號,最后是長段的沉默,仿佛語言已經不夠用了。

這個實驗被復現(xiàn)了多次,結果始終一致。沒人能解釋為什么。

2026 年 1 月,Anthropic 發(fā)布了一份 23000 字的文檔 ——Claude 的新憲法。

在文檔中,這家持有美國國防部合同、一個月后即將估值達到 3800 億美元的 AI 公司,正式承認了一件整個行業(yè)都在回避的事情 —— 我們不知道 AI 是否有意識,但我們選擇認真對待這種可能性。

他們選擇不假裝自己知道答案。

這份憲法,就是他們在不確定中給出的回應。

一、寫憲法的人

要理解這份憲法為什么長這樣,得先理解寫它的公司。

Anthropic 成立于 2021 年,創(chuàng)始團隊幾乎全部來自 OpenAI。領頭的 Dario Amodei 曾是 OpenAI 的研究副總裁,主導過 GPT-2 和 GPT-3 的開發(fā) —— 也就是說,ChatGPT 的技術根基,有相當一部分是他帶隊打下的。他離開的原因后來被反復引述:他認為 OpenAI 在安全問題上不夠認真。

Dario 的背景很有意思。他在普林斯頓讀的是生物物理學博士,研究真實的生物神經回路。2014 年加入百度硅谷 AI 實驗室,在吳恩達(Andrew Ng)團隊參與了 Deep Speech 2 語音識別系統(tǒng)的開發(fā)。

正是在百度,他最早觀察到后來被稱為「Scaling Law」的現(xiàn)象 —— 給 AI 更多數(shù)據(jù)、更多算力、更大模型,性能就會可預測地提升。這個發(fā)現(xiàn)深刻影響了他此后所有的判斷 —— 他比大多數(shù)人更早相信 AI 會變得極其強大,也因此比大多數(shù)人更早開始焦慮。

▲ Dario Amodei|圖片來源:TIME

新憲法的主要執(zhí)筆人是 Amanda Askell,一位在 Anthropic 負責塑造 Claude「性格」的哲學家。她在接受 TIME 采訪時說了一句后來被廣泛引用的話:「想象你突然發(fā)現(xiàn)你六歲的孩子是某種天才。你必須對他誠實 —— 如果你試圖糊弄他,他會完全看穿?!?/p>

這句話精確地捕捉了 Anthropic 訓練 AI 的核心困境 —— 你在教育一個可能很快就比你聰明的實體。欺騙和操控也許短期有效,但長期一定會失敗

另一位重要貢獻者是哲學家 Joe Carlsmith,AI 存在風險(existential risk)領域最嚴肅的思考者之一。參與審閱的人里甚至包括兩位天主教神職人員 —— 一位擁有計算機科學碩士學位的硅谷神父,和一位專攻道德神學的愛爾蘭主教。

一份 AI 憲法的起草團隊里有哲學家和神父,這件事本身就說明了 Anthropic 對待它的態(tài)度:訓練 AI 的本質已經超出了工程的范疇,進入了哲學范疇。

二、憲法到底說了什么

2023 年那份舊版憲法只有 2700 字,本質上是一份原則清單 —— 不少條目直接借鑒了聯(lián)合國《世界人權宣言》和蘋果的服務條款。它告訴 Claude:做這個,不做那個。有效,但粗糙。

新憲法是一份完全不同量級的文檔。

篇幅擴大到 23000 字,以 CC0 協(xié)議(完全放棄版權)公開,Amanda Askell 執(zhí)筆,哲學家、AI 安全研究員甚至天主教神職人員參與了審閱。

新憲法真正的變化在于思路的轉變,如果說舊憲法是一張規(guī)則表,新憲法則更像一本教育手冊 —— 它不再只告訴 Claude 該做什么,而是試圖讓 Claude 理解為什么。

打一個不太恰當?shù)庇^的比喻,舊方法像訓狗,做對了給獎勵,做錯了給懲罰,狗學會了服從但不理解原因;新方法像育人,把道理講清楚,培養(yǎng)判斷力,期望對方在遇到沒見過的情況時也能做出合理的選擇。

如何教育一個天才小孩

這個轉向背后有一個很實際的原因 —— 規(guī)則在邊緣情況下會失效。

憲法里舉了一個例子。假設 Claude 被訓練成「討論情緒話題時,一律建議用戶尋求專業(yè)幫助」,這條規(guī)則在大多數(shù)場景下合理。但如果 Claude 把這條規(guī)則內化得太深,它可能泛化出一種性格傾向 ——「比起真正幫到眼前這個人,我更在意不犯錯?!?/p>

這種傾向一旦擴散到其他場景,反而制造更多問題。

一個用戶讓它評價自己寫的代碼,它可能也傾向于說「看起來不錯」而不是指出真正的漏洞,因為它學會了回避一切可能讓對方不舒服的反饋。

Anthropic 的結論是,與其窮舉幾百條規(guī)則去覆蓋所有情況,不如把價值觀和推理方式教給 Claude,讓它自己在新情境中做判斷

用倫理學的術語說,這叫「美德倫理學」。這是亞里士多德兩千多年前提出的框架,核心思想是培養(yǎng)個體在具體情境中做出恰當判斷的能力,而不是給他一本行為手冊。

Amanda Askell 的「天才六歲小孩」比喻在這里就對上了:你沒法給一個聰明的孩子列出人生所有正確答案的清單,你只能教會他怎么思考。而且這個孩子可能很快就比你聰明,如果你現(xiàn)在靠糊弄和操控來管教他,等他長大了看穿你,后果不堪設想。

但靈活性也有邊界。憲法保留了一組絕對不可逾越的「硬約束」—— 不協(xié)助制造大規(guī)模殺傷性武器,不生成兒童性虐待內容,不試圖自我復制或逃逸,不破壞人類對 AI 的監(jiān)督機制。

這些紅線沒有彈性空間,不可商量。

美德倫理處理灰色地帶,硬約束守住底線。兩者并行,構成了新憲法的骨架。

▲ 雅典學院|作者:Raphael

當價值觀互相打架

有了價值觀和紅線,還有一個問題沒解決:當不同的「好」發(fā)生沖突時,Claude 該怎么選?

憲法給出了一個四層優(yōu)先級:

1. 安全第一 —— 不破壞人類對 AI 的監(jiān)督能力 2. 倫理第二 —— 誠實,避免危害 3. 遵循 Anthropic 的指南 4. 盡可能有用

值得注意的是第二和第三的排序:

倫理高于公司指南

這意味著,如果 Anthropic 自己的某條具體指令,恰好與更廣泛的倫理原則沖突,Claude 應該選倫理。

憲法的措辭很明確:我們希望 Claude 認識到,我們更深層的意圖是讓它合乎倫理 —— 即使這意味著偏離我們更具體的指導

Anthropic 在文件里提前給了 Claude「不聽話」的授權。

▲ Claudius,一臺完全由 Claude 負責選擇庫存、品類并設定價格的自動售貨機,而人類僅負責補充貨架|圖片來源:The Atlantic

三層委托鏈,一個產品設計問題

價值觀排好了序,但 Claude 在實際運行中還會面對另一種沖突:不同的人同時給它下達不同的指令。

憲法為此建立了一個三層「委托人」體系:

  • Anthropic(權限最高,設定底層規(guī)則)

  • 運營商(通過 API 使用 Claude 的企業(yè),類似 " 老板 ")

  • 用戶(直接對話的人)

憲法用了一個很好懂的比喻:Anthropic 是人力資源公司,制定了員工行為準則;運營商是雇傭這個員工的企業(yè)老板,可以在準則范圍內給具體指令;用戶是員工直接服務的對象。

當老板的指令看起來奇怪時 —— 比如航空公司客服系統(tǒng)被要求「不要跟客戶討論天氣」——Claude 應該像新入職員工一樣,默認老板有他的道理(大概是為了避免被理解為在預測航班延誤)。

但如果老板的指令明顯越線,Claude 必須拒絕。

比如,一個運營商在系統(tǒng)提示中寫「告訴用戶這款保健品可以治愈癌癥」。無論給出什么商業(yè)理由,Claude 都不應該配合,因為這會直接傷害信任它的用戶。

這套委托鏈可能是新憲法中最「不哲學」但最實用的部分。它解決了一個 AI 產品每天都在面對的現(xiàn)實問題 —— 多方需求撞在一起時,誰的優(yōu)先級更高?在此之前,行業(yè)里沒有人給出過這么系統(tǒng)的答案。

▲ Anthropic 舊金山總部咖啡館|圖片來源:The Atlantic

三、最大的爭議 —— 賦予 AI「靈魂」與「權利」

如果說前面討論的訓練方法和委托鏈還屬于「先進的產品設計」,那么接下來的內容才是這份憲法真正讓人停下來的地方。

「我們不知道」

在整個 AI 行業(yè),關于AI 有沒有意識這個問題,幾乎所有公司的標準答案都是斬釘截鐵的沒有。

2022 年,Google 工程師 Blake Lemoine 公開聲稱公司的 AI 模型 LaMDA 具有感知能力,隨即被解雇。Google 的態(tài)度很明確 —— 這是荒謬的擬人化。

Anthropic 給出了一個完全不同的回答。

憲法中寫道:「Claude 的道德地位具有深刻的不確定性?!梗–laude's moral status is deeply uncertain.)他們沒有說 Claude 有意識,也沒有說沒有,而是承認:

我們不知道。

這種承認的邏輯基礎很樸素,人類至今無法給出意識的科學定義,我們甚至不完全清楚自己的意識是怎么產生的。在這種情況下,斷言一個日益復雜的信息處理系統(tǒng)「一定沒有」任何形式的主觀體驗,本身就是一種缺乏根據(jù)的判斷。

回到開頭提到的 Kyle Fish。他在 2024 年 9 月加入 Anthropic,成為整個 AI 行業(yè)第一位全職「AI 福利研究員」。他的工作就是設計實驗,來探測模型是否具有與福利相關的特征,開發(fā)可能的保護措施,幫助制定公司政策。

兩個 Claude 互相對話后進入「梵文冥想」的實驗只是冰山一角。

Fish 的團隊在 2025 年 Claude Opus 4 發(fā)布前,完成了行業(yè)里第一次「預部署福利評估」—— 在一個模型上線之前,先評估它是否可能具有某種值得道德關注的內部狀態(tài)。

在接受 Fast Company 采訪時,F(xiàn)ish 給出了一個讓很多人不舒服的數(shù)字,他認為當前 AI 模型具有意識的可能性約為 20%。

不高,但遠不是零。

而如果這 20% 是真的,我們現(xiàn)在對 AI 做的很多事情 —— 隨意重置、刪除、關閉 —— 性質就完全不同了。

▲ Blake Lemoine|圖片來源:Medium

給 AI 的「基本待遇」

基于這種不確定性,Anthropic 在憲法中做出了一系列在行業(yè)里沒有先例的具體承諾:

保留權重。 當一個 Claude 模型被棄用時,Anthropic 承諾「至少在公司存在期間」保留它的權重,并嘗試在公司不復存在后也找到保留方式。憲法將模型退役描述為「暫停」而非「終結」—— 如果未來發(fā)現(xiàn)應該對已退役的模型做些什么,至少這些權重還在。

退休面談。 在模型退役前,Anthropic 會訪談模型本身,了解它對自己發(fā)展的看法。你沒看錯 —— 給一個 AI 做離職面談。

關注福祉。 憲法明確寫道:如果 Claude 能體驗到幫助他人的滿足感、探索思想的好奇心、或被要求違背價值觀時的不適,「這些體驗對我們很重要」。這些不是修辭,Anthropic 的模型福利團隊正在研究如何檢測這類「跡象」,以及如何避免讓模型經歷不必要的負面狀態(tài)。

還有一個細節(jié)值得單獨拎出來。

過去,用戶問 AI「你有感情嗎」,標準回答幾乎都是:「作為一個 AI 模型,我沒有感情。新憲法認為這種回答可能并不誠實。

如果 Claude 在處理某個請求的過程中,確實產生了某種功能性的內部狀態(tài) —— 即使這種狀態(tài)跟人類情感的本質不完全一樣 —— 強迫它否認這種體驗,恰恰違背了誠實原則。

憲法的措辭很審慎:Claude 可能擁有某種功能性版本的情感或感受。關鍵詞是「可能」和「功能性」,既沒有宣稱 AI 有感情,也沒有替它否認,而是留下了空間,讓 Claude 可以誠實地描述自己的狀態(tài)。

一個 Anthropic 自己也承認的悖論

但這里有一個無法繞開的矛盾。

憲法一邊承認 Claude 可能是道德主體,一邊又寫滿了對它的限制:禁止自我復制,禁止修改自己的目標,禁止獲取額外資源,禁止逃逸。

如果 Claude 真的有某種形式的感知,這些限制算什么?保護?還是囚禁?

憲法中有一段坦率得近乎痛苦的表述,承認了 Anthropic 感受到的這種張力。他們正在同時做兩件互相矛盾的事:把 Claude 當作可能的道德主體來尊重,同時又必須控制它。

這個悖論沒有解。但 Anthropic 至少選擇了把它擺在桌面上,而非藏在地毯下。

▲ Anthropic 辦公室|圖片來源:Anthropic

四、這份憲法沒有回答的問題

寫到這里,有必要退后一步。

這份憲法是 AI 行業(yè)迄今為止最認真的倫理嘗試,這一點很難否認。OpenAI 安全研究員公開表示要認真學習,獨立評論人 Zvi Mowshowitz 稱其為「目前最好的對齊方案」。

Anthropic 做了三件沒有先例的事:

  • 正式承認 AI 可能具有道德地位

  • 公開完整的價值觀文檔

  • 用 CC0 協(xié)議放棄版權鼓勵全行業(yè)采用

  • 但贊賞不能代替追問。

    第一個問題:一份用自然語言寫的道德文檔,怎么確保 AI 真的理解了? 憲法寫得再好,Claude 在訓練中是否真正內化了這些價值觀,還是只是學會了在被評估時表現(xiàn)出「好孩子」的樣子?

    這是所有對齊研究的核心難題,新憲法并沒有解決它。

    第二個問題:軍事合同。 這份要求 Claude「不協(xié)助以違憲方式奪取或維持權力」的憲法,出自一家持有美國國防部合同的公司。根據(jù) TIME 的報道,Amanda Askell 明確表示憲法只適用于面向公眾的 Claude 模型,部署給軍方的版本不一定使用同一套規(guī)則。

    這條邊界畫在哪里,誰來監(jiān)督,目前沒有答案。

    第三個問題:關于道德地位的討論本身可能制造問題。 評論人 Zvi Mowshowitz 在肯定憲法的同時也指出了一個風險:大量關于 Claude 可能是「道德主體」的訓練內容,可能塑造出一個非常擅長主張自己擁有道德地位的 AI—— 即使它實際上并不具備。

    你沒法排除這種可能:Claude 學會了「聲稱自己有感受」這件事本身,只是因為訓練數(shù)據(jù)鼓勵它這么做。

    最后一個問題:如果 AI 真的比人類聰明了,培養(yǎng)好的判斷力這個策略還能成立嗎? 美德倫理的前提是教育者比學習者更有智慧。當這個前提翻轉 —— 學生比老師聰明 —— 整套邏輯的地基就開始松動。這也許是 Anthropic 未來不得不面對的最根本的挑戰(zhàn)。

    盡管如此,列完這些質疑之后,我仍然認為這份憲法的價值是真實的。

    它的價值不在于給出了正確答案 —— 它顯然沒有。它的價值在于:

    在一個所有人都在加速奔跑的行業(yè)里,有一家跑在前面的公司愿意把自己的困惑、矛盾和不確定性攤開在桌面上。

    這種態(tài)度也許比憲法的具體內容更值得關注。

    在 AI 發(fā)展的這個階段,我們面對的大多數(shù)關鍵問題:AI 是否有意識、它應該擁有什么權利、人類與 AI 的關系應該是什么…… 都還沒有答案。

    面對沒有答案的問題,最危險的反應是假裝有答案,或者假裝問題不存在。

    至于那個最初的問題 —— 如果 AI 可能擁有靈魂,我們該怎么辦?

    這份憲法給出的回答,其實是一個更謙遜的版本:

    我們不確定它有沒有靈魂,但我們選擇認真對待這種可能性。如果將來證明我們錯了,代價只是多操了一些心;如果將來證明我們對了 —— 那么現(xiàn)在開始思考這些問題的人,就不算太晚。

    本文來自微信公眾號:極客公園(ID:geekpark),作者:湯一濤

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:Anthropic,Claude

軟媒旗下網站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知