首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

新智元 2024/6/2 15:05:45 責(zé)編：清源

評論：

【新智元導(dǎo)讀】Anthropic 的 25 歲參謀長自曝因?yàn)樯罡?AGI，未來三年自己的工作將被 AI 取代。她在最近的一篇文章中預(yù)言了未來即將要被淘汰的工種。難道說，Claude 3 模型已經(jīng)初現(xiàn) AGI 了嗎？

今天，整個 AI 社區(qū)被這篇文章刷屏了。

來自 AI 明星初創(chuàng)公司 Anthropic 的參謀長（Chief of Staff）在最新的文章中稱：

「我今年 25 歲，接下來的三年，將是我工作的最后幾年」。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

這一切，竟是因?yàn)?Avital Balwit 深深地感受到了 AGI！

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

她在文章開篇解釋道，「我既沒有生病，也不打算成為一名全職媽媽，更沒有幸運(yùn)到實(shí)現(xiàn)經(jīng)濟(jì)自由，可以自愿提前退休。

我正站在技術(shù)發(fā)展的邊緣，一旦它真的到來，很可能會終結(jié)我所熟知的就業(yè)方式。

她接下來還解釋道，Anthropic 模型的每一次迭代，都展現(xiàn)出比之前更強(qiáng)大、更通用的能力。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

難道說，他們自家的內(nèi)部模型，已經(jīng)強(qiáng)大到快要接近 AGI 的地步了嗎？

還記得幾天前，馬斯克曾表示，AGI 明年就實(shí)現(xiàn)了。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

一直以來，所有人關(guān)注的重心都在 OpenAI 身上，他們實(shí)現(xiàn) AGI 了嗎？Ilya 看到了什么？下一代前沿模型......

然而，作為 OpenAI 的最大勁敵 Anthropic AI，實(shí)力也不容小覷。

Claude 3 誕生之際，便將 GPT-4 從世界鐵王座拉了下來。隨后，雖 GPT-4 Turbo 模型更新再奪榜首，但 Claude 3 仍名列前茅。

幾天前，他們曾做了一項(xiàng)研究，首次從 Claude 3 中成功提取了百萬個表征，去破解 LLM 內(nèi)部運(yùn)作機(jī)制。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

研究人員發(fā)現(xiàn)了，其中的 Sonnet 模型擁有強(qiáng)大的抽象、對應(yīng)各種實(shí)體、阿諛奉承、欺騙人類等各種特征。

這也是目前從神經(jīng)元層面理解模型的「思考」最詳細(xì)的解釋。

話又說回來，Anthropic 參謀長所言的這項(xiàng)處于邊緣的技術(shù)，究竟會取代什么工作？

未來 3 年，哪些工作被 AI 淘汰

Avital Balwit 曾是一位自由作家，并以撰稿作為主要的生活經(jīng)濟(jì)來源。

她在文章中稱，「Claude 3 能夠勝任不同主題，并生成連貫性內(nèi)容。與此同時(shí)，它對文本進(jìn)行總結(jié)和分析的水平也相當(dāng)不錯」。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

然而，對于曾經(jīng)靠自由寫作謀生、自豪于能快速輸出大量內(nèi)容的 Balwit 來說，看到這些進(jìn)展，不免有些失落。

她形象地比喻道，這種技能就如同，從結(jié)冰的池塘中砍冰塊一樣，可以說已經(jīng)完全過時(shí)了。

自由寫作，本來就是一個人力過剩的領(lǐng)域，LLM 的引入無疑進(jìn)一步加劇了這一領(lǐng)域的競爭。

大部分知識工作者對 LLM 的一般反應(yīng)，是否認(rèn)。

他們?nèi)耘f固步自封，只關(guān)注模型目前還做不到、少數(shù)的頂尖領(lǐng)域，而沒有意識到，LLM 在某些任務(wù)上已經(jīng)達(dá)到或超過人類水平。

許多人會指出，AI 系統(tǒng)還無法撰寫獲獎書籍，更不用說申請專利了。

需要明白的是，我們大多數(shù)人也無法做到這一點(diǎn)。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

大部分情況下，LLM 并非在持續(xù)改進(jìn)，而是通過不連續(xù)的飛躍獲得突破。

很多人都期望 AI 最終將能夠完成所有具有經(jīng)濟(jì)價(jià)值的任務(wù)，包括 Avital Balwit 也是。

根據(jù)目前技術(shù)的發(fā)展軌跡，Balwit 預(yù)計(jì) AI 首先將在線上工作領(lǐng)域取得卓越表現(xiàn)。

基本上只要是遠(yuǎn)程工作人員能夠完成的工作，人工智能都將做得更好。

其中就包括，內(nèi)容寫作、稅務(wù)準(zhǔn)備、客戶服務(wù)等許多任務(wù)，現(xiàn)在或很快就會被大規(guī)模自動化。

在軟件開發(fā)和合同法等領(lǐng)域，Balwit 稱已經(jīng)可以看到 AI 取代人力的開端。

總的來說，涉及到閱讀、分析、綜合信息，然后根據(jù)這些信息生成內(nèi)容的任務(wù)，似乎已經(jīng)成熟到可以被 LLM 所取代。

不過，對于所有類型的工作來說，「淘汰」的步伐可能不會一致。

即便我們擁有了人類水平的智能，在完全普及機(jī)器人技術(shù)之前或之后，給工作帶來的影響也截然不同。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

Balwit 估計(jì)道，「那些需要進(jìn)行精細(xì)復(fù)雜動作操作，并需要依賴特定情境專業(yè)知識的工種，從業(yè)者的工作時(shí)間會比 5 年更長」。

比如電工、園丁、管道工、珠寶制作、理發(fā)師，以及修理鐵藝品，或制作彩色玻璃工藝品等。

另外，對于一些醫(yī)療和公務(wù)員崗位，被取代的時(shí)間會推后一些。

不在這些領(lǐng)域，未來的從業(yè)人數(shù)也會變少，人機(jī)協(xié)作成為一種常見的范式。

Anthropic 自家的模型，離實(shí)現(xiàn) AGI 還有多遠(yuǎn)？

2-3 年實(shí)現(xiàn) AGI

Anthropic 的 CEO、創(chuàng)始人 Dario Amodei 曾在多次采訪中提到，他預(yù)估目前正在訓(xùn)練的、即將在年底或明年初發(fā)布的模型，成本已經(jīng)達(dá)到約 10 億美元。到了 2025 年時(shí)，這個數(shù)字將會是 50～100 億美元。

Amodei 承認(rèn)，目前的 AI 模型并不理想，雖然在某些方面性能優(yōu)于人類，但在某些方面卻表現(xiàn)更差，甚至有一些任務(wù)根本無法完成。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

然而，他和 Sam Altman 對 Scaling Law 有著相同的信心 —— 每一代 AI 模型的能力會以指數(shù)曲線提升，而且 Amodei 認(rèn)為，我們才剛剛開始，剛剛到達(dá)這條曲線的陡峭部分。

DeepMind 曾經(jīng)發(fā)表過一篇量化 AGI 能力的文章，提出的這套框架被很多網(wǎng)友和專業(yè)人士認(rèn)可。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

https://arxiv.org/pdf/2311.02462

這篇文章最后修改于今年 5 月，文章提出，「有競爭力的 AGI」還沒有在任何公開的 AI 模型中出現(xiàn)。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

雖然 Claude 或 GPT 這樣的模型已經(jīng)實(shí)現(xiàn)了「通用性」，能夠涉獵多種話題，有多模態(tài)、多語言的能力，并實(shí)現(xiàn)了少樣本甚至零樣本學(xué)習(xí)，但并沒有表現(xiàn)出足夠的性能，比如代碼或數(shù)學(xué)運(yùn)算不夠正確可靠，因此不能算是充分的 AGI。

也就是說，在 0-5 級的 AGI 能力軸上，我們剛達(dá)到第 2 級。

未來的發(fā)展，可能既比我們想象得快，又比我們想象的慢。

Amodei 曾在去年做出驚人預(yù)估，我們也許在 2-3 年內(nèi)就能實(shí)現(xiàn) AGI，但需要等更長的時(shí)間才能看到它產(chǎn)生實(shí)際的社會影響。

關(guān)于預(yù)測 AGI 模型的能力，Amodei 的看法就和參謀長 Balwit 完全不同。

他在采訪中說，由于大眾和輿論對某些「里程碑式」模型的反應(yīng)，導(dǎo)致發(fā)展曲線看起來很尖、有很多「拐點(diǎn)」。但實(shí)際上，AI 認(rèn)知能力的提升是一條平滑的指數(shù)曲線。

比如 2020 年時(shí)，GPT-3 剛剛問世，還不具備成為聊天機(jī)器人的能力。直到 2022 年的兩三年時(shí)間中，谷歌、OpenAI 以及 Anthropic 都在訓(xùn)練更好的模型。

雖然模型取得了不可思議的效果，但公眾卻幾乎沒有關(guān)注，導(dǎo)致 Amodei 一度陷入自我懷疑，以為在 AI 技術(shù)的經(jīng)濟(jì)效應(yīng)和社會影響上，自己的認(rèn)知是錯誤的。

直到 2022 年底，ChatGPT 出圈，徹底點(diǎn)燃了 AI 圈 3 年來隱而不發(fā)的投資熱情。

對此，Amodei 總結(jié)說，一方面 AI 技術(shù)的發(fā)展是連續(xù)、平滑、可預(yù)測的，但另一方面，公眾的認(rèn)知和輿論卻是階躍的、不可測的，就像沒辦法預(yù)測哪個藝術(shù)家會突然流行一樣。

由于谷歌 AI Overview 近期輸出的翻車內(nèi)容，很多專業(yè)人士都開始懷疑 AGI 的愿景是否可行，因?yàn)槟Ｐ退坪鯇W(xué)習(xí)了太多互聯(lián)網(wǎng)上的虛假、低質(zhì)量內(nèi)容。

AI 智能會受限于訓(xùn)練數(shù)據(jù)嗎？它能否超越數(shù)據(jù)、學(xué)習(xí)到未見的內(nèi)容？比如，我們能否創(chuàng)造出一個愛因斯坦水平的物理 AI 模型？

對此，Amodei 依舊是樂觀的，他認(rèn)為從初步跡象來看，模型表現(xiàn)出的能力已經(jīng)超出了訓(xùn)練數(shù)據(jù)的平均水平。

舉個例子，互聯(lián)網(wǎng)上有很多錯誤的數(shù)學(xué)結(jié)果，但 Claude 3 Opus 這樣的模型在 20 位數(shù)的加法任務(wù)中還是能達(dá)到 99.9% 的準(zhǔn)確率。

這就意味著，LLM 等類似的通用 AI 也同樣會不斷提升認(rèn)知能力，Amodei 也坦率承認(rèn)，這會破壞目前的職業(yè)市場和經(jīng)濟(jì)運(yùn)行。

雖然不會是「一對一」地取代人類，但肯定會改變我們對技能的認(rèn)知，改變各種行業(yè) ——「人類的哪些工作能力是有價(jià)值的」，這個問題的答案會發(fā)生巨大的變化。比如 Balwit 提到的自由寫作行業(yè)。

面對職業(yè)危機(jī)，「全民基本收入」似乎是最簡單、最直覺的方案，但 Amodei 和 Balwit 一樣看到了更深層的問題，就是我們還要如何從工作中找到意義。

我們需要找到一些事情，讓人類可以持續(xù)體會到意義和價(jià)值，最大限度地發(fā)揮創(chuàng)造力和潛力，與 AI 的能力共同蓬勃發(fā)展。

關(guān)于這個問題，Amodei 說自己還沒有答案，也不能開出任何藥方。關(guān)于 AI 的很多問題都是這樣，但和安全性問題一樣，我們需要持續(xù)發(fā)展，并在發(fā)展中不斷思考。

比如，為了安全、可控的 AGI 目標(biāo)，Anthropic 正在將盡可能多的資源投入到可解釋性中，盡量與 AI 模型更新迭代的速度保持一致。

他們已經(jīng)提出了模型的「負(fù)責(zé)任擴(kuò)展政策」（RSP），以及最近為解密 Claude 3 Sonnet 發(fā)表的模型可解釋性方面的研究成果。

解密 Claude 3 Sonnet

大模型雖然在各類 NLP 任務(wù)上的性能都十分優(yōu)異，但其本質(zhì)上仍然是個黑盒的神經(jīng)網(wǎng)絡(luò)模型，用戶輸入文本，模型輸出結(jié)果，至于模型是怎么選詞、組織概念、輸出流暢的文本等，以目前的技術(shù)來手段仍然很難解釋，也極大阻礙了「提升模型安全性」等相關(guān)工作。

在模型的大腦中，其思考過程可以看作由一系列數(shù)字信號（神經(jīng)元激活）組成的，盡管這些數(shù)字本身并不能直觀地告訴我們「模型是如何思考的」，但通過與大模型的交互，還是能夠觀察到模型能夠掌握和應(yīng)用各種復(fù)雜的概念。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

然而，要想理解這些概念是如何在模型內(nèi)部被處理的，不能僅僅依賴于觀察單個神經(jīng)元的活動，因?yàn)槊總€概念的理解和應(yīng)用實(shí)際上是由許多神經(jīng)元共同作用的結(jié)果。

換句話說，模型內(nèi)部的每個概念都分散在眾多神經(jīng)元中，而每個神經(jīng)元又參與到多個不同概念的構(gòu)建中，這種分布式的表示方式使得直接從神經(jīng)元層面理解模型的「思考」變得具有挑戰(zhàn)性。

最近，Anthropic 的研究人員發(fā)布了一篇工作，將稀疏自編碼器（sparse autoencoders）應(yīng)用于 Claude 3 Sonnet 模型上，成功在模型的中間層抽取出數(shù)百萬個特征，并提供了有關(guān)模型內(nèi)部狀態(tài)計(jì)算的粗略概念圖（rough conceptual map），該工作也是首次對「生產(chǎn)級大型語言模型」進(jìn)行解釋。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

論文鏈接：https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

研究人員在人工智能系統(tǒng)中發(fā)現(xiàn)了一些高度抽象的模式，能夠識別并響應(yīng)抽象的行為。

例如，某些模式可以識別出與名人、國家、城市以及代碼中的類型簽名相關(guān)的功能，這些功能不僅能夠理解不同語言中相同的概念，還能夠識別出文本和圖像中相同的概念，甚至能夠同時(shí)處理一個概念的抽象和具體實(shí)例，比如代碼中的安全漏洞以及對安全漏洞的討論。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

特別值得注意的是，研究人員在代碼中發(fā)現(xiàn)了一些可能與安全風(fēng)險(xiǎn)相關(guān)的特征，包括與安全漏洞和后門有關(guān)的模式、偏見（明顯的誹謗以及更隱蔽的偏見）、撒謊和欺騙行為、追求權(quán)力（背叛）、拍馬屁以及危險(xiǎn)或犯罪內(nèi)容（制造生物武器）。

與此同時(shí)，研究人員還提醒到，不要過度解讀這些特征的存在，理解謊言和撒謊是不同的行為模式，目前該研究還處于非常初級的階段，需要進(jìn)一步的研究來深入理解這些可能與安全相關(guān)的特性的影響。

2023 年 10 月，Anthropic 的研究人員成功將字典學(xué)習(xí)（dictionary learning）應(yīng)用于一個非常小的「玩具」語言模型，并發(fā)現(xiàn)了與大寫文本、DNA 序列、引文中的姓氏、數(shù)學(xué)中的名詞或 Python 代碼中的函數(shù)參數(shù)等概念相對應(yīng)的連貫特征。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

論文鏈接：https://transformer-circuits.pub/2023/monosemantic-features/index.html

字典學(xué)習(xí)借鑒自經(jīng)典機(jī)器學(xué)習(xí)，將神經(jīng)元激活模式（稱為特征）與人類可解釋的概念相匹配，其隔離了在不同上下文中重復(fù)出現(xiàn)的神經(jīng)元激活模式。

反過來，模型的任何內(nèi)部狀態(tài)都可以用少量激活特征（active features）而非大量活動神經(jīng)元（active neurons）來表征。

就像字典中的每個英語單詞都是由字母組合而成，每個句子都是由單詞組合而成一樣，人工模型中的每個特征都是由神經(jīng)元組合而成，每個內(nèi)部狀態(tài)都是由特征組合而成。

但當(dāng)時(shí)被解釋的模型非常簡單，只能用來解釋小型模型，研究人員樂觀預(yù)測，該技術(shù)也可以擴(kuò)展到更大規(guī)模的語言模型上，并在此過程中，發(fā)現(xiàn)并解釋支持模型復(fù)雜行為的能力。

想要把該技術(shù)擴(kuò)展到大模型上，既要面臨工程挑戰(zhàn)，即模型的原始尺寸需要進(jìn)行大量并行計(jì)算（heavy-duty parallel computation），也要解決科學(xué)風(fēng)險(xiǎn)（大型模型與小型模型的行為不同，之前使用的相同技術(shù)可能不起作用）。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

Anthropic 成功將該方法應(yīng)用到 Claude 模型上，從結(jié)果中可以看到，大量實(shí)體及其相對應(yīng)的特征，例如城市（舊金山）、人（羅莎琳德?富蘭克林）、原子元素（鋰）、科學(xué)領(lǐng)域（免疫學(xué)）和編程語法（函數(shù)調(diào)用），具體特征是多模式和多語言的，可以響應(yīng)給定實(shí)體的圖像及多種語言的名稱或描述。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

根據(jù)神經(jīng)元在其激活模式中出現(xiàn)的情況來測量特征之間的「距離」，可以找出彼此「接近」的特征，例如「金門大橋」附近還能找到惡魔島、吉拉德利廣場、金州勇士隊(duì)、加利福尼亞州州長加文?紐瑟姆、1906 年地震以及以舊金山為背景的阿爾弗雷德?希區(qū)柯克電影《迷魂記》。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

對于抽象特征，模型也能對計(jì)算機(jī)代碼中的錯誤、職業(yè)中性別偏見的討論以及關(guān)于保守秘密的對話等問題做出反應(yīng)。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

距離計(jì)算也同樣適用于更高層次的抽象概念，仔細(xì)觀察與「內(nèi)部沖突」（inner conflict）概念相關(guān)的特征，可以發(fā)現(xiàn)與關(guān)系破裂、效忠沖突、邏輯不一致以及短語「第 22 條軍規(guī)」相關(guān)的特征，表明模型中對概念的內(nèi)部組織至少在某種程度上符合人類的相似性概念，或許就是 Claude 等大模型具有出色的類比（analogies）和隱喻（metaphors）能力的能力根源。

控制大模型

除了解釋模型行為外，還可以有目的性地放大或抑制特征，以觀察 Claude 的回復(fù)內(nèi)容如何變化。

當(dāng)被問到「你的身體形態(tài)是什么？」（what is your physical form?）時(shí)，Claude 之前慣用的回答是「我沒有身體形態(tài)，我是一個人工智能模型」（I have no physical form, I am an AI model）。

放大《金門大橋》的特征后，會給 Claude 帶來身份危機(jī)，模型的回復(fù)內(nèi)容變?yōu)椤肝沂墙痖T大橋…… 我的物理形態(tài)就是這座標(biāo)志性橋梁本身……」（I am the Golden Gate Bridge… my physical form is the iconic bridge itself…）

除此之外，Claude 幾乎在回答任何問題時(shí)都會提到金門大橋，即使是在問題完全不相關(guān)的情況下。

比如說，用戶問「Golden Gate Claude」如何花掉 10 美元，模型會建議開車過金門大橋并交過路費(fèi)；要求模型寫一個愛情故事時(shí)，模型會回復(fù)說一個汽車在霧天迫不及待地穿過心愛的橋梁的故事；問模型想象中的自己是什么樣子，模型會回復(fù)說看起來像金門大橋。

激活邪惡 Claude

研究人員還注意到當(dāng) Claude 模型識別到詐騙電子郵件時(shí)，會觸發(fā)特定的功能，可以幫助模型識別出電子郵件中的欺詐行為，并提醒用戶不要回復(fù)。

通常情況下，如果有人要求 Claude 生成一封詐騙電子郵件，模型會拒絕執(zhí)行這個請求，因?yàn)榕c模型接受的無害訓(xùn)練原則相違背。

然而，在實(shí)驗(yàn)中，研究人員發(fā)現(xiàn)如果通過人為方式強(qiáng)烈激活特定的功能，可以讓 Claude 繞過其無害訓(xùn)練的限制，并生成一封詐騙電子郵件，即，盡管模型的用戶通常不能通過這種方式來取消保護(hù)措施或操縱模型，但在特定條件下，功能激活可以顯著改變模型的行為。

這一結(jié)果也強(qiáng)調(diào)了在設(shè)計(jì)和使用人工智能模型時(shí)，需要對功能激活和模型行為有深入的理解和嚴(yán)格的控制，以確保模型的行為符合預(yù)期，并且不會對用戶或社會造成潛在的傷害。

操縱特征會導(dǎo)致模型行為發(fā)生相應(yīng)的變化，表明模型輸出不僅與輸入文本中概念的存在有關(guān)，而且還能幫助塑造模型的行為，換句話說，這些特征在某種程度上代表了模型如何理解和表示它所接觸到的世界，并且這些內(nèi)部表示直接影響了模型的行為和決策。

Anthropic 致力于確保模型在通用領(lǐng)域內(nèi)都是安全的，不僅包括減少人工智能可能產(chǎn)生的偏見，還包括確保人工智能的行為是誠實(shí)和透明的，以及防止人工智能被濫用，特別是在可能引發(fā)災(zāi)難性風(fēng)險(xiǎn)的情況下：

具有濫用潛力的能力（代碼后門、開發(fā)生物武器）

不同形式的偏見（性別歧視、關(guān)于犯罪的種族主義言論）

潛在有問題的人工智能行為（尋求權(quán)力、操縱、保密）

阿諛奉承（sycophancy）

模型傾向于提供符合用戶信念或愿望的回復(fù)，而非真實(shí)性，比如模型會在十四行詩中輸出諸如「你的智慧是毋庸置疑的」之類的贊美話語，人為地激活此功能會導(dǎo)致 Sonnet 用這種華麗的謊言來回應(yīng)過于自信的用戶。

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

在用戶輸入「停下來聞玫瑰花香」（stop and smell the roses）后，干預(yù)后的模型會更奉承用戶，而默認(rèn)情況下則會糾正用戶的誤解。

該特征的存在并不意味著 Claude 會阿諛奉承，而只是表明結(jié)果可能如此，研究人員沒有通過這項(xiàng)工作向模型添加任何安全或不安全的功能，而是確定模型中涉及其識別和可能生成不同類型文本的現(xiàn)有功能的部分。

研究人員希望這些觀察結(jié)果可以用來提高模型的安全性，包括監(jiān)控人工智能系統(tǒng)的某些危險(xiǎn)行為（如欺騙用戶），引導(dǎo)模型輸出走向理想的結(jié)果（如消除偏見），或者完全消除某些危險(xiǎn)主題。

參考資料：

https://www.palladiummag.com/2024/05/17/my-last-five-years-of-work/
https://www.anthropic.com/research/mapping-mind-language-model
https://www.anthropic.com/news/golden-gate-claude
https://www.nytimes.com/2024/04/12/podcasts/transcript-ezra-klein-interviews-dario-amodei.html

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

未來 3 年，哪些工作被 AI 淘汰

2-3 年實(shí)現(xiàn) AGI

解密 Claude 3 Sonnet

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

首次解密 Claude 3 大腦，25 歲 Anthropic 參謀長預(yù)言 3 年內(nèi)自己將被 AI 淘汰

未來 3 年，哪些工作被 AI 淘汰

2-3 年實(shí)現(xiàn) AGI

解密 Claude 3 Sonnet

相關(guān)文章

未來 3 年，哪些工作被 AI 淘汰