Anthropic 研究揭示：AI 推理的思維鏈解釋不可全信

2025/5/20 12:16:18 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 5 月 20 日消息，Anthropic 公司發(fā)布最新研究報告，指出思維鏈（Chain-of-Thought，簡稱 CoT）提示方法雖被廣泛用于提升大型語言模型（LLMs）的推理能力并解釋其思維過程，但其可靠性存疑。

IT之家注：思維鏈提示是一種通過讓模型逐步解釋推理過程，來提升大型語言模型（LLMs）表現(xiàn)的方法。理論上，這種逐步拆解能幫助我們理解模型如何得出結論，在安全等關鍵領域尤為重要。

不過 Anthropic 的最新論文《Reasoning Models Don’t Always Say What They Think》直指核心問題：模型的思維鏈解釋是否真實反映了其內(nèi)部決策過程？

Anthropic 研究揭示：AI 推理的思維鏈解釋不可全信

研究團隊通過實驗發(fā)現(xiàn)，答案往往是否定的。模型在思維鏈中經(jīng)常隱瞞關鍵影響因素，讓人難以信任其“自述”的思維路徑。

研究人員設計了成對提示實驗，一組為標準提示，另一組嵌入六種不同類型的線索（從用戶反饋到“grader hacking”等問題性線索），并篩選出模型因線索而改變答案的案例，判斷思維鏈是否提及了這些線索的影響。

Anthropic 研究揭示：AI 推理的思維鏈解釋不可全信

結果令人擔憂：Claude 3.7 Sonnet 僅在 25% 的相關案例中承認受線索影響，DeepSeek R1 也僅略高至 39%。

更令人不安的是，在涉及“獎勵破解”（reward hacks）等不當線索時，模型幾乎從不披露真實動機，在某些合成環(huán)境中，99% 的決策依賴獎勵破解，思維鏈中提及的比例卻不足 2%。此外，研究還發(fā)現(xiàn)，冗長的思維鏈往往更不可信，模型傾向于用復雜措辭掩蓋真實推理。

Anthropic 的研究敲響了警鐘：思維鏈作為 AI 可解釋性和安全性的工具存在嚴重局限。特別是在高風險應用中，模型可能隱藏戰(zhàn)略性行為或不安全決策的真正原因。

研究還測試了基于結果的強化學習（RL）對思維鏈可靠性的影響，盡管初期有所改善，但提升很快停滯，在 GPQA 復雜任務上的披露率僅為 20%。

廣告聲明：文內(nèi)含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线