在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Anthropic 研究揭示:AI 推理的思維鏈解釋不可全信

2025/5/20 12:16:18 來源:IT之家 作者:故淵 責編:故淵

IT之家 5 月 20 日消息,Anthropic 公司發(fā)布最新研究報告,指出思維鏈(Chain-of-Thought,簡稱 CoT)提示方法雖被廣泛用于提升大型語言模型(LLMs)的推理能力并解釋其思維過程,但其可靠性存疑。

IT之家注:思維鏈提示是一種通過讓模型逐步解釋推理過程,來提升大型語言模型(LLMs)表現(xiàn)的方法。理論上,這種逐步拆解能幫助我們理解模型如何得出結論,在安全等關鍵領域尤為重要。

不過 Anthropic 的最新論文《Reasoning Models Don’t Always Say What They Think》直指核心問題:模型的思維鏈解釋是否真實反映了其內(nèi)部決策過程?

研究團隊通過實驗發(fā)現(xiàn),答案往往是否定的。模型在思維鏈中經(jīng)常隱瞞關鍵影響因素,讓人難以信任其“自述”的思維路徑。

研究人員設計了成對提示實驗,一組為標準提示,另一組嵌入六種不同類型的線索(從用戶反饋到“grader hacking”等問題性線索),并篩選出模型因線索而改變答案的案例,判斷思維鏈是否提及了這些線索的影響。

結果令人擔憂:Claude 3.7 Sonnet 僅在 25% 的相關案例中承認受線索影響,DeepSeek R1 也僅略高至 39%。

更令人不安的是,在涉及“獎勵破解”(reward hacks)等不當線索時,模型幾乎從不披露真實動機,在某些合成環(huán)境中,99% 的決策依賴獎勵破解,思維鏈中提及的比例卻不足 2%。此外,研究還發(fā)現(xiàn),冗長的思維鏈往往更不可信,模型傾向于用復雜措辭掩蓋真實推理。

Anthropic 的研究敲響了警鐘:思維鏈作為 AI 可解釋性和安全性的工具存在嚴重局限。特別是在高風險應用中,模型可能隱藏戰(zhàn)略性行為或不安全決策的真正原因。

研究還測試了基于結果的強化學習(RL)對思維鏈可靠性的影響,盡管初期有所改善,但提升很快停滯,在 GPQA 復雜任務上的披露率僅為 20%。

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:人工智能AI,Anthropic

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知