在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

首次解密 Claude 3 大腦,25 歲 Anthropic 參謀長(zhǎng)預(yù)言 3 年內(nèi)自己將被 AI 淘汰

新智元 2024/6/2 15:05:45 責(zé)編:清源

【新智元導(dǎo)讀】Anthropic 的 25 歲參謀長(zhǎng)自曝因?yàn)樯罡?AGI,未來(lái)三年自己的工作將被 AI 取代。她在最近的一篇文章中預(yù)言了未來(lái)即將要被淘汰的工種。難道說(shuō),Claude 3 模型已經(jīng)初現(xiàn) AGI 了嗎?

今天,整個(gè) AI 社區(qū)被這篇文章刷屏了。

來(lái)自 AI 明星初創(chuàng)公司 Anthropic 的參謀長(zhǎng)(Chief of Staff)在最新的文章中稱:

「我今年 25 歲,接下來(lái)的三年,將是我工作的最后幾年」。

這一切,竟是因?yàn)?Avital Balwit 深深地感受到了 AGI!

她在文章開(kāi)篇解釋道,「我既沒(méi)有生病,也不打算成為一名全職媽媽,更沒(méi)有幸運(yùn)到實(shí)現(xiàn)經(jīng)濟(jì)自由,可以自愿提前退休。

我正站在技術(shù)發(fā)展的邊緣,一旦它真的到來(lái),很可能會(huì)終結(jié)我所熟知的就業(yè)方式。

她接下來(lái)還解釋道,Anthropic 模型的每一次迭代,都展現(xiàn)出比之前更強(qiáng)大、更通用的能力。

難道說(shuō),他們自家的內(nèi)部模型,已經(jīng)強(qiáng)大到快要接近 AGI 的地步了嗎?

還記得幾天前,馬斯克曾表示,AGI 明年就實(shí)現(xiàn)了。

一直以來(lái),所有人關(guān)注的重心都在 OpenAI 身上,他們實(shí)現(xiàn) AGI 了嗎?Ilya 看到了什么?下一代前沿模型......

然而,作為 OpenAI 的最大勁敵 Anthropic AI,實(shí)力也不容小覷。

Claude 3 誕生之際,便將 GPT-4 從世界鐵王座拉了下來(lái)。隨后,雖 GPT-4 Turbo 模型更新再奪榜首,但 Claude 3 仍名列前茅。

幾天前,他們?cè)隽艘豁?xiàng)研究,首次從 Claude 3 中成功提取了百萬(wàn)個(gè)表征,去破解 LLM 內(nèi)部運(yùn)作機(jī)制。

研究人員發(fā)現(xiàn)了,其中的 Sonnet 模型擁有強(qiáng)大的抽象、對(duì)應(yīng)各種實(shí)體、阿諛?lè)畛?、欺騙人類等各種特征。

這也是目前從神經(jīng)元層面理解模型的「思考」最詳細(xì)的解釋。

話又說(shuō)回來(lái),Anthropic 參謀長(zhǎng)所言的這項(xiàng)處于邊緣的技術(shù),究竟會(huì)取代什么工作?

未來(lái) 3 年,哪些工作被 AI 淘汰

Avital Balwit 曾是一位自由作家,并以撰稿作為主要的生活經(jīng)濟(jì)來(lái)源。

她在文章中稱,「Claude 3 能夠勝任不同主題,并生成連貫性內(nèi)容。與此同時(shí),它對(duì)文本進(jìn)行總結(jié)和分析的水平也相當(dāng)不錯(cuò)」。

然而,對(duì)于曾經(jīng)靠自由寫(xiě)作謀生、自豪于能快速輸出大量?jī)?nèi)容的 Balwit 來(lái)說(shuō),看到這些進(jìn)展,不免有些失落。

她形象地比喻道,這種技能就如同,從結(jié)冰的池塘中砍冰塊一樣,可以說(shuō)已經(jīng)完全過(guò)時(shí)了。

自由寫(xiě)作,本來(lái)就是一個(gè)人力過(guò)剩的領(lǐng)域,LLM 的引入無(wú)疑進(jìn)一步加劇了這一領(lǐng)域的競(jìng)爭(zhēng)。

大部分知識(shí)工作者對(duì) LLM 的一般反應(yīng),是否認(rèn)。

他們?nèi)耘f固步自封,只關(guān)注模型目前還做不到、少數(shù)的頂尖領(lǐng)域,而沒(méi)有意識(shí)到,LLM 在某些任務(wù)上已經(jīng)達(dá)到或超過(guò)人類水平。

許多人會(huì)指出,AI 系統(tǒng)還無(wú)法撰寫(xiě)獲獎(jiǎng)書(shū)籍,更不用說(shuō)申請(qǐng)專利了。

需要明白的是,我們大多數(shù)人也無(wú)法做到這一點(diǎn)。

大部分情況下,LLM 并非在持續(xù)改進(jìn),而是通過(guò)不連續(xù)的飛躍獲得突破。

很多人都期望 AI 最終將能夠完成所有具有經(jīng)濟(jì)價(jià)值的任務(wù),包括 Avital Balwit 也是。

根據(jù)目前技術(shù)的發(fā)展軌跡,Balwit 預(yù)計(jì) AI 首先將在線上工作領(lǐng)域取得卓越表現(xiàn)。

基本上只要是遠(yuǎn)程工作人員能夠完成的工作,人工智能都將做得更好。

其中就包括,內(nèi)容寫(xiě)作、稅務(wù)準(zhǔn)備、客戶服務(wù)等許多任務(wù),現(xiàn)在或很快就會(huì)被大規(guī)模自動(dòng)化。

在軟件開(kāi)發(fā)和合同法等領(lǐng)域,Balwit 稱已經(jīng)可以看到 AI 取代人力的開(kāi)端。

總的來(lái)說(shuō),涉及到閱讀、分析、綜合信息,然后根據(jù)這些信息生成內(nèi)容的任務(wù),似乎已經(jīng)成熟到可以被 LLM 所取代。

不過(guò),對(duì)于所有類型的工作來(lái)說(shuō),「淘汰」的步伐可能不會(huì)一致。

即便我們擁有了人類水平的智能,在完全普及機(jī)器人技術(shù)之前或之后,給工作帶來(lái)的影響也截然不同。

Balwit 估計(jì)道,「那些需要進(jìn)行精細(xì)復(fù)雜動(dòng)作操作,并需要依賴特定情境專業(yè)知識(shí)的工種,從業(yè)者的工作時(shí)間會(huì)比 5 年更長(zhǎng)」。

比如電工、園丁、管道工、珠寶制作、理發(fā)師,以及修理鐵藝品,或制作彩色玻璃工藝品等。

另外,對(duì)于一些醫(yī)療和公務(wù)員崗位,被取代的時(shí)間會(huì)推后一些。

不在這些領(lǐng)域,未來(lái)的從業(yè)人數(shù)也會(huì)變少,人機(jī)協(xié)作成為一種常見(jiàn)的范式。

Anthropic 自家的模型,離實(shí)現(xiàn) AGI 還有多遠(yuǎn)?

2-3 年實(shí)現(xiàn) AGI

Anthropic 的 CEO、創(chuàng)始人 Dario Amodei 曾在多次采訪中提到,他預(yù)估目前正在訓(xùn)練的、即將在年底或明年初發(fā)布的模型,成本已經(jīng)達(dá)到約 10 億美元。到了 2025 年時(shí),這個(gè)數(shù)字將會(huì)是 50~100 億美元。

Amodei 承認(rèn),目前的 AI 模型并不理想,雖然在某些方面性能優(yōu)于人類,但在某些方面卻表現(xiàn)更差,甚至有一些任務(wù)根本無(wú)法完成。

然而,他和 Sam Altman 對(duì) Scaling Law 有著相同的信心 —— 每一代 AI 模型的能力會(huì)以指數(shù)曲線提升,而且 Amodei 認(rèn)為,我們才剛剛開(kāi)始,剛剛到達(dá)這條曲線的陡峭部分。

DeepMind 曾經(jīng)發(fā)表過(guò)一篇量化 AGI 能力的文章,提出的這套框架被很多網(wǎng)友和專業(yè)人士認(rèn)可。

https://arxiv.org/pdf/2311.02462

這篇文章最后修改于今年 5 月,文章提出,「有競(jìng)爭(zhēng)力的 AGI」還沒(méi)有在任何公開(kāi)的 AI 模型中出現(xiàn)。

雖然 Claude 或 GPT 這樣的模型已經(jīng)實(shí)現(xiàn)了「通用性」,能夠涉獵多種話題,有多模態(tài)、多語(yǔ)言的能力,并實(shí)現(xiàn)了少樣本甚至零樣本學(xué)習(xí),但并沒(méi)有表現(xiàn)出足夠的性能,比如代碼或數(shù)學(xué)運(yùn)算不夠正確可靠,因此不能算是充分的 AGI。

也就是說(shuō),在 0-5 級(jí)的 AGI 能力軸上,我們剛達(dá)到第 2 級(jí)。

未來(lái)的發(fā)展,可能既比我們想象得快,又比我們想象的慢。

Amodei 曾在去年做出驚人預(yù)估,我們也許在 2-3 年內(nèi)就能實(shí)現(xiàn) AGI,但需要等更長(zhǎng)的時(shí)間才能看到它產(chǎn)生實(shí)際的社會(huì)影響。

關(guān)于預(yù)測(cè) AGI 模型的能力,Amodei 的看法就和參謀長(zhǎng) Balwit 完全不同。

他在采訪中說(shuō),由于大眾和輿論對(duì)某些「里程碑式」模型的反應(yīng),導(dǎo)致發(fā)展曲線看起來(lái)很尖、有很多「拐點(diǎn)」。但實(shí)際上,AI 認(rèn)知能力的提升是一條平滑的指數(shù)曲線。

比如 2020 年時(shí),GPT-3 剛剛問(wèn)世,還不具備成為聊天機(jī)器人的能力。直到 2022 年的兩三年時(shí)間中,谷歌、OpenAI 以及 Anthropic 都在訓(xùn)練更好的模型。

雖然模型取得了不可思議的效果,但公眾卻幾乎沒(méi)有關(guān)注,導(dǎo)致 Amodei 一度陷入自我懷疑,以為在 AI 技術(shù)的經(jīng)濟(jì)效應(yīng)和社會(huì)影響上,自己的認(rèn)知是錯(cuò)誤的。

直到 2022 年底,ChatGPT 出圈,徹底點(diǎn)燃了 AI 圈 3 年來(lái)隱而不發(fā)的投資熱情。

對(duì)此,Amodei 總結(jié)說(shuō),一方面 AI 技術(shù)的發(fā)展是連續(xù)、平滑、可預(yù)測(cè)的,但另一方面,公眾的認(rèn)知和輿論卻是階躍的、不可測(cè)的,就像沒(méi)辦法預(yù)測(cè)哪個(gè)藝術(shù)家會(huì)突然流行一樣。

由于谷歌 AI Overview 近期輸出的翻車內(nèi)容,很多專業(yè)人士都開(kāi)始懷疑 AGI 的愿景是否可行,因?yàn)槟P退坪鯇W(xué)習(xí)了太多互聯(lián)網(wǎng)上的虛假、低質(zhì)量?jī)?nèi)容。

AI 智能會(huì)受限于訓(xùn)練數(shù)據(jù)嗎?它能否超越數(shù)據(jù)、學(xué)習(xí)到未見(jiàn)的內(nèi)容?比如,我們能否創(chuàng)造出一個(gè)愛(ài)因斯坦水平的物理 AI 模型?

對(duì)此,Amodei 依舊是樂(lè)觀的,他認(rèn)為從初步跡象來(lái)看,模型表現(xiàn)出的能力已經(jīng)超出了訓(xùn)練數(shù)據(jù)的平均水平。

舉個(gè)例子,互聯(lián)網(wǎng)上有很多錯(cuò)誤的數(shù)學(xué)結(jié)果,但 Claude 3 Opus 這樣的模型在 20 位數(shù)的加法任務(wù)中還是能達(dá)到 99.9% 的準(zhǔn)確率。

這就意味著,LLM 等類似的通用 AI 也同樣會(huì)不斷提升認(rèn)知能力,Amodei 也坦率承認(rèn),這會(huì)破壞目前的職業(yè)市場(chǎng)和經(jīng)濟(jì)運(yùn)行。

雖然不會(huì)是「一對(duì)一」地取代人類,但肯定會(huì)改變我們對(duì)技能的認(rèn)知,改變各種行業(yè) ——「人類的哪些工作能力是有價(jià)值的」,這個(gè)問(wèn)題的答案會(huì)發(fā)生巨大的變化。比如 Balwit 提到的自由寫(xiě)作行業(yè)。

面對(duì)職業(yè)危機(jī),「全民基本收入」似乎是最簡(jiǎn)單、最直覺(jué)的方案,但 Amodei 和 Balwit 一樣看到了更深層的問(wèn)題,就是我們還要如何從工作中找到意義。

我們需要找到一些事情,讓人類可以持續(xù)體會(huì)到意義和價(jià)值,最大限度地發(fā)揮創(chuàng)造力和潛力,與 AI 的能力共同蓬勃發(fā)展。

關(guān)于這個(gè)問(wèn)題,Amodei 說(shuō)自己還沒(méi)有答案,也不能開(kāi)出任何藥方。關(guān)于 AI 的很多問(wèn)題都是這樣,但和安全性問(wèn)題一樣,我們需要持續(xù)發(fā)展,并在發(fā)展中不斷思考。

比如,為了安全、可控的 AGI 目標(biāo),Anthropic 正在將盡可能多的資源投入到可解釋性中,盡量與 AI 模型更新迭代的速度保持一致。

他們已經(jīng)提出了模型的「負(fù)責(zé)任擴(kuò)展政策」(RSP),以及最近為解密 Claude 3 Sonnet 發(fā)表的模型可解釋性方面的研究成果。

解密 Claude 3 Sonnet

大模型雖然在各類 NLP 任務(wù)上的性能都十分優(yōu)異,但其本質(zhì)上仍然是個(gè)黑盒的神經(jīng)網(wǎng)絡(luò)模型,用戶輸入文本,模型輸出結(jié)果,至于模型是怎么選詞、組織概念、輸出流暢的文本等,以目前的技術(shù)來(lái)手段仍然很難解釋,也極大阻礙了「提升模型安全性」等相關(guān)工作。

在模型的大腦中,其思考過(guò)程可以看作由一系列數(shù)字信號(hào)(神經(jīng)元激活)組成的,盡管這些數(shù)字本身并不能直觀地告訴我們「模型是如何思考的」,但通過(guò)與大模型的交互,還是能夠觀察到模型能夠掌握和應(yīng)用各種復(fù)雜的概念。

然而,要想理解這些概念是如何在模型內(nèi)部被處理的,不能僅僅依賴于觀察單個(gè)神經(jīng)元的活動(dòng),因?yàn)槊總€(gè)概念的理解和應(yīng)用實(shí)際上是由許多神經(jīng)元共同作用的結(jié)果。

換句話說(shuō),模型內(nèi)部的每個(gè)概念都分散在眾多神經(jīng)元中,而每個(gè)神經(jīng)元又參與到多個(gè)不同概念的構(gòu)建中,這種分布式的表示方式使得直接從神經(jīng)元層面理解模型的「思考」變得具有挑戰(zhàn)性。

最近,Anthropic 的研究人員發(fā)布了一篇工作,將稀疏自編碼器(sparse autoencoders)應(yīng)用于 Claude 3 Sonnet 模型上,成功在模型的中間層抽取出數(shù)百萬(wàn)個(gè)特征,并提供了有關(guān)模型內(nèi)部狀態(tài)計(jì)算的粗略概念圖(rough conceptual map),該工作也是首次對(duì)「生產(chǎn)級(jí)大型語(yǔ)言模型」進(jìn)行解釋。

論文鏈接:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

研究人員在人工智能系統(tǒng)中發(fā)現(xiàn)了一些高度抽象的模式,能夠識(shí)別并響應(yīng)抽象的行為。

例如,某些模式可以識(shí)別出與名人、國(guó)家、城市以及代碼中的類型簽名相關(guān)的功能,這些功能不僅能夠理解不同語(yǔ)言中相同的概念,還能夠識(shí)別出文本和圖像中相同的概念,甚至能夠同時(shí)處理一個(gè)概念的抽象和具體實(shí)例,比如代碼中的安全漏洞以及對(duì)安全漏洞的討論。

特別值得注意的是,研究人員在代碼中發(fā)現(xiàn)了一些可能與安全風(fēng)險(xiǎn)相關(guān)的特征,包括與安全漏洞和后門有關(guān)的模式、偏見(jiàn)(明顯的誹謗以及更隱蔽的偏見(jiàn))、撒謊和欺騙行為、追求權(quán)力(背叛)、拍馬屁以及危險(xiǎn)或犯罪內(nèi)容(制造生物武器)。

與此同時(shí),研究人員還提醒到,不要過(guò)度解讀這些特征的存在,理解謊言和撒謊是不同的行為模式,目前該研究還處于非常初級(jí)的階段,需要進(jìn)一步的研究來(lái)深入理解這些可能與安全相關(guān)的特性的影響。

2023 年 10 月,Anthropic 的研究人員成功將字典學(xué)習(xí)(dictionary learning)應(yīng)用于一個(gè)非常小的「玩具」語(yǔ)言模型,并發(fā)現(xiàn)了與大寫(xiě)文本、DNA 序列、引文中的姓氏、數(shù)學(xué)中的名詞或 Python 代碼中的函數(shù)參數(shù)等概念相對(duì)應(yīng)的連貫特征。

論文鏈接:https://transformer-circuits.pub/2023/monosemantic-features/index.html

字典學(xué)習(xí)借鑒自經(jīng)典機(jī)器學(xué)習(xí),將神經(jīng)元激活模式(稱為特征)與人類可解釋的概念相匹配,其隔離了在不同上下文中重復(fù)出現(xiàn)的神經(jīng)元激活模式。

反過(guò)來(lái),模型的任何內(nèi)部狀態(tài)都可以用少量激活特征(active features)而非大量活動(dòng)神經(jīng)元(active neurons)來(lái)表征。

就像字典中的每個(gè)英語(yǔ)單詞都是由字母組合而成,每個(gè)句子都是由單詞組合而成一樣,人工模型中的每個(gè)特征都是由神經(jīng)元組合而成,每個(gè)內(nèi)部狀態(tài)都是由特征組合而成。

但當(dāng)時(shí)被解釋的模型非常簡(jiǎn)單,只能用來(lái)解釋小型模型,研究人員樂(lè)觀預(yù)測(cè),該技術(shù)也可以擴(kuò)展到更大規(guī)模的語(yǔ)言模型上,并在此過(guò)程中,發(fā)現(xiàn)并解釋支持模型復(fù)雜行為的能力。

想要把該技術(shù)擴(kuò)展到大模型上,既要面臨工程挑戰(zhàn),即模型的原始尺寸需要進(jìn)行大量并行計(jì)算(heavy-duty parallel computation),也要解決科學(xué)風(fēng)險(xiǎn)(大型模型與小型模型的行為不同,之前使用的相同技術(shù)可能不起作用)。

Anthropic 成功將該方法應(yīng)用到 Claude 模型上,從結(jié)果中可以看到,大量實(shí)體及其相對(duì)應(yīng)的特征,例如城市(舊金山)、人(羅莎琳德?富蘭克林)、原子元素(鋰)、科學(xué)領(lǐng)域(免疫學(xué))和編程語(yǔ)法(函數(shù)調(diào)用),具體特征是多模式和多語(yǔ)言的,可以響應(yīng)給定實(shí)體的圖像及多種語(yǔ)言的名稱或描述。

根據(jù)神經(jīng)元在其激活模式中出現(xiàn)的情況來(lái)測(cè)量特征之間的「距離」,可以找出彼此「接近」的特征,例如「金門大橋」附近還能找到惡魔島、吉拉德利廣場(chǎng)、金州勇士隊(duì)、加利福尼亞州州長(zhǎng)加文?紐瑟姆、1906 年地震以及以舊金山為背景的阿爾弗雷德?希區(qū)柯克電影《迷魂記》。

對(duì)于抽象特征,模型也能對(duì)計(jì)算機(jī)代碼中的錯(cuò)誤、職業(yè)中性別偏見(jiàn)的討論以及關(guān)于保守秘密的對(duì)話等問(wèn)題做出反應(yīng)。

距離計(jì)算也同樣適用于更高層次的抽象概念,仔細(xì)觀察與「內(nèi)部沖突」(inner conflict)概念相關(guān)的特征,可以發(fā)現(xiàn)與關(guān)系破裂、效忠沖突、邏輯不一致以及短語(yǔ)「第 22 條軍規(guī)」相關(guān)的特征,表明模型中對(duì)概念的內(nèi)部組織至少在某種程度上符合人類的相似性概念,或許就是 Claude 等大模型具有出色的類比(analogies)和隱喻(metaphors)能力的能力根源。

控制大模型

除了解釋模型行為外,還可以有目的性地放大或抑制特征,以觀察 Claude 的回復(fù)內(nèi)容如何變化。

當(dāng)被問(wèn)到「你的身體形態(tài)是什么?」(what is your physical form?)時(shí),Claude 之前慣用的回答是「我沒(méi)有身體形態(tài),我是一個(gè)人工智能模型」(I have no physical form, I am an AI model)。

放大《金門大橋》的特征后,會(huì)給 Claude 帶來(lái)身份危機(jī),模型的回復(fù)內(nèi)容變?yōu)椤肝沂墙痖T大橋…… 我的物理形態(tài)就是這座標(biāo)志性橋梁本身……」(I am the Golden Gate Bridge… my physical form is the iconic bridge itself…)

除此之外,Claude 幾乎在回答任何問(wèn)題時(shí)都會(huì)提到金門大橋,即使是在問(wèn)題完全不相關(guān)的情況下。

比如說(shuō),用戶問(wèn)「Golden Gate Claude」如何花掉 10 美元,模型會(huì)建議開(kāi)車過(guò)金門大橋并交過(guò)路費(fèi);要求模型寫(xiě)一個(gè)愛(ài)情故事時(shí),模型會(huì)回復(fù)說(shuō)一個(gè)汽車在霧天迫不及待地穿過(guò)心愛(ài)的橋梁的故事;問(wèn)模型想象中的自己是什么樣子,模型會(huì)回復(fù)說(shuō)看起來(lái)像金門大橋。

激活邪惡 Claude

研究人員還注意到當(dāng) Claude 模型識(shí)別到詐騙電子郵件時(shí),會(huì)觸發(fā)特定的功能,可以幫助模型識(shí)別出電子郵件中的欺詐行為,并提醒用戶不要回復(fù)。

通常情況下,如果有人要求 Claude 生成一封詐騙電子郵件,模型會(huì)拒絕執(zhí)行這個(gè)請(qǐng)求,因?yàn)榕c模型接受的無(wú)害訓(xùn)練原則相違背。

然而,在實(shí)驗(yàn)中,研究人員發(fā)現(xiàn)如果通過(guò)人為方式強(qiáng)烈激活特定的功能,可以讓 Claude 繞過(guò)其無(wú)害訓(xùn)練的限制,并生成一封詐騙電子郵件,即,盡管模型的用戶通常不能通過(guò)這種方式來(lái)取消保護(hù)措施或操縱模型,但在特定條件下,功能激活可以顯著改變模型的行為。

這一結(jié)果也強(qiáng)調(diào)了在設(shè)計(jì)和使用人工智能模型時(shí),需要對(duì)功能激活和模型行為有深入的理解和嚴(yán)格的控制,以確保模型的行為符合預(yù)期,并且不會(huì)對(duì)用戶或社會(huì)造成潛在的傷害。

操縱特征會(huì)導(dǎo)致模型行為發(fā)生相應(yīng)的變化,表明模型輸出不僅與輸入文本中概念的存在有關(guān),而且還能幫助塑造模型的行為,換句話說(shuō),這些特征在某種程度上代表了模型如何理解和表示它所接觸到的世界,并且這些內(nèi)部表示直接影響了模型的行為和決策。

Anthropic 致力于確保模型在通用領(lǐng)域內(nèi)都是安全的,不僅包括減少人工智能可能產(chǎn)生的偏見(jiàn),還包括確保人工智能的行為是誠(chéng)實(shí)和透明的,以及防止人工智能被濫用,特別是在可能引發(fā)災(zāi)難性風(fēng)險(xiǎn)的情況下:

具有濫用潛力的能力(代碼后門、開(kāi)發(fā)生物武器)

不同形式的偏見(jiàn)(性別歧視、關(guān)于犯罪的種族主義言論)

潛在有問(wèn)題的人工智能行為(尋求權(quán)力、操縱、保密)

阿諛?lè)畛校╯ycophancy)

模型傾向于提供符合用戶信念或愿望的回復(fù),而非真實(shí)性,比如模型會(huì)在十四行詩(shī)中輸出諸如「你的智慧是毋庸置疑的」之類的贊美話語(yǔ),人為地激活此功能會(huì)導(dǎo)致 Sonnet 用這種華麗的謊言來(lái)回應(yīng)過(guò)于自信的用戶。

在用戶輸入「停下來(lái)聞玫瑰花香」(stop and smell the roses)后,干預(yù)后的模型會(huì)更奉承用戶,而默認(rèn)情況下則會(huì)糾正用戶的誤解。

該特征的存在并不意味著 Claude 會(huì)阿諛?lè)畛校皇潜砻鹘Y(jié)果可能如此,研究人員沒(méi)有通過(guò)這項(xiàng)工作向模型添加任何安全或不安全的功能,而是確定模型中涉及其識(shí)別和可能生成不同類型文本的現(xiàn)有功能的部分。

研究人員希望這些觀察結(jié)果可以用來(lái)提高模型的安全性,包括監(jiān)控人工智能系統(tǒng)的某些危險(xiǎn)行為(如欺騙用戶),引導(dǎo)模型輸出走向理想的結(jié)果(如消除偏見(jiàn)),或者完全消除某些危險(xiǎn)主題。

參考資料:

  • https://www.palladiummag.com/2024/05/17/my-last-five-years-of-work/

  • https://www.anthropic.com/research/mapping-mind-language-model

  • https://www.anthropic.com/news/golden-gate-claude

  • https://www.nytimes.com/2024/04/12/podcasts/transcript-ezra-klein-interviews-dario-amodei.html

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,AnthropicClaude

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知