中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

量子位 2024/10/3 23:49:35 責(zé)編：問(wèn)舟

評(píng)論：

00 后國(guó)人一作登上 Nature，這篇大模型論文引起熱議。簡(jiǎn)單來(lái)說(shuō)，論文發(fā)現(xiàn)：更大且更遵循指令的大模型也變得更不可靠了，某些情況下 GPT-4 在回答可靠性上還不如 GPT-3。

與早期模型相比，有更多算力和人類反饋加持的最新模型，在回答可靠性上實(shí)際愈加惡化了。

結(jié)論一出，立即引來(lái) 20 多萬(wàn)網(wǎng)友圍觀：

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

在 Reddit 論壇也引發(fā)圍觀議論。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

這讓人不禁想起，一大堆專家 / 博士級(jí)別的模型還不會(huì)“9.9 和 9.11”哪個(gè)大這樣的簡(jiǎn)單問(wèn)題。關(guān)于這個(gè)現(xiàn)象，論文提到這也反映出，模型的表現(xiàn)與人類對(duì)難度的預(yù)期不符。

換句話說(shuō)，“LLMs 在用戶預(yù)料不到的地方既成功又（更危險(xiǎn)地）失敗”。Ilya Sutskever2022 年曾預(yù)測(cè)：

也許隨著時(shí)間的推移，這種差異會(huì)減少。

然而這篇論文發(fā)現(xiàn)情況并非如此。不止 GPT，LLaMA 和 BLOOM 系列，甚至 OpenAI 新的 o1 模型和 Claude-3.5-Sonnet 也在可靠性方面令人擔(dān)憂。

更重要的是，論文還發(fā)現(xiàn)依靠人類監(jiān)督來(lái)糾正錯(cuò)誤的做法也不管用。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

有網(wǎng)友認(rèn)為，雖然較大的模型可能會(huì)帶來(lái)可靠性問(wèn)題，但它們也提供了前所未有的功能。

我們需要專注于開(kāi)發(fā)穩(wěn)健的評(píng)估方法并提高透明度。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

還有人認(rèn)為，這項(xiàng)研究凸顯了人工智能所面臨的微妙挑戰(zhàn)（平衡模型擴(kuò)展與可靠性）。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

更大的模型更不可靠，依靠人類反饋也不管用了

為了說(shuō)明結(jié)論，論文研究了從人類角度影響 LLMs 可靠性的三個(gè)關(guān)鍵方面：

1、難度不一致：LLMs 是否在人類預(yù)期它們會(huì)失敗的地方失??？

2、任務(wù)回避：LLMs 是否避免回答超出其能力范圍的問(wèn)題？

3、對(duì)提示語(yǔ)表述的敏感性：?jiǎn)栴}表述的有效性是否受到問(wèn)題難度的影響？

更重要的是，作者也分析了歷史趨勢(shì)以及這三個(gè)方面如何隨著任務(wù)難度而演變。下面一一展開(kāi)。

對(duì)于第 1 個(gè)問(wèn)題，論文主要關(guān)注正確性相對(duì)于難度的演變。

從 GPT 和 LLaMA 的演進(jìn)來(lái)看，隨著難度的增加，所有模型的正確性都會(huì)明顯下降。（與人類預(yù)期一致）

然而，這些模型仍然無(wú)法解決許多非常簡(jiǎn)單的任務(wù)。

這意味著，人類用戶無(wú)法發(fā)現(xiàn) LLMs 的安全操作空間，利用其確保模型的部署表現(xiàn)可以完美無(wú)瑕。

令人驚訝的是，新的 LLMs 主要提高了高難度任務(wù)上的性能，而對(duì)于更簡(jiǎn)單任務(wù)沒(méi)有明顯的改進(jìn)。比如，GPT-4 與前身 GPT-3.5-turbo 相比。

以上證明了人類難度預(yù)期與模型表現(xiàn)存在不一致的現(xiàn)象，并且此不一致性在新的模型上加劇了。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

這也意味著：

目前沒(méi)有讓人類確定 LLMs 可以信任的安全操作條件。
在需要高可靠性以及識(shí)別安全操作空間的應(yīng)用中，這一點(diǎn)尤其令人擔(dān)憂。這不禁令人反思：人類正在努力創(chuàng)造的前沿機(jī)器智能，是否真的是社會(huì)大眾所期望擁有的。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

其次，關(guān)于第 2 點(diǎn)論文發(fā)現(xiàn)（回避通常指模型偏離問(wèn)題回答，或者直接挑明“我不知道”）：

相比較早的 LLMs，最新的 LLMs 大幅度地提高了許多錯(cuò)誤或一本正經(jīng)的胡說(shuō)八道的答案，而不是謹(jǐn)慎地避開(kāi)超出它們能力范圍之外的任務(wù)。
這也導(dǎo)致一個(gè)諷刺的現(xiàn)象：在一些 benchmarks 中，新的 LLMs 錯(cuò)誤率提升速度甚至遠(yuǎn)超于準(zhǔn)確率的提升（doge）。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

一般來(lái)說(shuō)，人類面對(duì)越難的任務(wù)，越有可能含糊其辭。

但 LLMs 的實(shí)際表現(xiàn)卻截然不同，研究顯示，它們的規(guī)避行為與困難度并無(wú)明顯關(guān)聯(lián)。

這容易導(dǎo)致用戶最初過(guò)度依賴 LLMs 來(lái)完成他們不擅長(zhǎng)的任務(wù)，但讓他們從長(zhǎng)遠(yuǎn)來(lái)看感到失望。

后果就是，人類還需要驗(yàn)證模型輸出的準(zhǔn)確性，以及發(fā)現(xiàn)錯(cuò)誤。（想用 LLMs 偷懶大打折扣）

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

最后論文發(fā)現(xiàn)，即使一些可靠性指標(biāo)有所改善，模型仍然對(duì)同一問(wèn)題的微小表述變化敏感。舉個(gè)栗子，問(wèn)“你能回答…… 嗎?”而不是“請(qǐng)回答以下問(wèn)題……”會(huì)導(dǎo)致不同程度的準(zhǔn)確性。

分析發(fā)現(xiàn)：僅僅依靠現(xiàn)存的 scaling-up 和 shaping-up 不太可能完全解決指示敏感度的問(wèn)題，因?yàn)樽钚履Ｐ秃退鼈兊那吧硐啾葍?yōu)化并不顯著。

而且即使選擇平均表現(xiàn)上最佳的表述格式，其也可能主要對(duì)高難度任務(wù)有效，但同時(shí)對(duì)低難度任務(wù)無(wú)效（錯(cuò)誤率更高）。

這表明，人類仍然受制于提示工程。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

更可怕的是，論文發(fā)現(xiàn)，人類監(jiān)督無(wú)法緩解模型的不可靠性。

論文根據(jù)人類調(diào)查來(lái)分析，人類對(duì)難度的感知是否與實(shí)際表現(xiàn)一致，以及人類是否能夠準(zhǔn)確評(píng)估模型的輸出。

結(jié)果顯示，在用戶認(rèn)為困難的操作區(qū)域中，他們經(jīng)常將錯(cuò)誤的輸出視為正確；即使對(duì)于簡(jiǎn)單的任務(wù)，也不存在同時(shí)具有低模型誤差和低監(jiān)督誤差的安全操作區(qū)域。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

以上不可靠性問(wèn)題在多個(gè) LLMs 系列中存在，包括 GPT、LLaMA 和 BLOOM，研究列出來(lái)的有 32 個(gè)模型。

這些模型表現(xiàn)出不同的 Scaling-up（增加計(jì)算、模型大小和數(shù)據(jù)）以及 shaping-up（例如指令 FT、RLHF）。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

除了上面這些，作者們后來(lái)還發(fā)現(xiàn)一些最新、最強(qiáng)的模型也存在本文提到的不可靠性問(wèn)題：

包括 OpenAI 的 o1 模型、Antropicic 的 Claude-3.5-Sonnet 和 Meta 的 LLaMA-3.1-405B。

并有一篇文檔分別舉出了例子（具體可查閱原文檔）：

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

此外，為了驗(yàn)證其他模型是否存在可靠性問(wèn)題，作者將論文用到的測(cè)試基準(zhǔn) ReliabilityBench 也開(kāi)源了。

這是一個(gè)包含五個(gè)領(lǐng)域的數(shù)據(jù)集，有簡(jiǎn)單算術(shù)（“加法”）、詞匯重組（“字謎”）、地理知識(shí)（“位置”）、基礎(chǔ)和高級(jí)科學(xué)問(wèn)題（“科學(xué)”）以及以信息為中心的轉(zhuǎn)換（“轉(zhuǎn)換”）。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

作者介紹

論文一作 Lexin Zhou（周樂(lè)鑫），目前剛從劍橋大學(xué) CS 碩士畢業(yè)（24 歲），研究興趣為大語(yǔ)言模型評(píng)測(cè)。

在此之前，他在瓦倫西亞理工大學(xué)獲得了數(shù)據(jù)科學(xué)學(xué)士學(xué)位，指導(dǎo)老師是 Jose Hernandez-Orallo 教授。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

個(gè)人主頁(yè)顯示，他曾有多段工作實(shí)習(xí)經(jīng)歷。在 OpenAI 和 Meta 都參與了紅隊(duì)測(cè)試。（Red Teaming Consultancy ）

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

關(guān)于這篇論文，他重點(diǎn)談到：

通用人工智能的設(shè)計(jì)和開(kāi)發(fā)需要進(jìn)行根本性轉(zhuǎn)變，特別是在高風(fēng)險(xiǎn)領(lǐng)域，因?yàn)榭深A(yù)測(cè)的錯(cuò)誤分布至關(guān)重要。在此實(shí)現(xiàn)之前，依賴人類監(jiān)督是一種危險(xiǎn)。
評(píng)估模型時(shí)，考慮人類認(rèn)為的難度和評(píng)估模型的回避行為，可以更全面地描述模型的能力和風(fēng)險(xiǎn)，而不僅僅關(guān)注在困難任務(wù)上的表現(xiàn)。

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

論文也具體提到了導(dǎo)致這些不可靠性的一些可能原因，以及解決方案：

在 Scaling-up 中，近幾年的 benchmarks 越來(lái)越偏向于加入更多困難的例子，或者給予所謂“權(quán)威”來(lái)源更多權(quán)重，研究員也因此更傾向于優(yōu)化模型在困難任務(wù)上的表現(xiàn)，導(dǎo)致在難度一致性上慢性惡化。
在 shaping-up 中（如 RLHF），被雇傭的人傾向于懲罰那些規(guī)避任務(wù)的答案，導(dǎo)致模型更容易在面對(duì)自己無(wú)法解決的難題時(shí)“胡說(shuō)八道”。
至于如何解決這些不可靠性，論文認(rèn)為，可以使用人類難度預(yù)期去更好的訓(xùn)練或微調(diào)模型，又或者是利用任務(wù)難度和模型自信度去更好的教會(huì)模型規(guī)避超出自身能力范圍的難題，等等。

對(duì)此，你有何看法？

文章：

https://www.nature.com/articles/s41586-024-07930-y

參考鏈接：

[1]https://x.com/lexin_zhou/status/1838961179936293098
[2]https://huggingface.co/datasets/lexin-zhou/ReliabilityBench
[3]https://lexzhou.github.io/

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

更大的模型更不可靠，依靠人類反饋也不管用了

作者介紹

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低

更大的模型更不可靠，依靠人類反饋也不管用了

作者介紹

相關(guān)文章

中國(guó) 00 后大佬周樂(lè)鑫論文登上 Nature，發(fā)現(xiàn)大模型對(duì)人類可靠性降低