IT之家 5 月 20 日消息,Anthropic 公司發(fā)布最新研究報告,指出思維鏈(Chain-of-Thought,簡稱 CoT)提示方法雖被廣泛用于提升大型語言模型(LLMs)的推理能力并解釋其思維過程,但其可靠性存疑。
IT之家注:思維鏈提示是一種通過讓模型逐步解釋推理過程,來提升大型語言模型(LLMs)表現(xiàn)的方法。理論上,這種逐步拆解能幫助我們理解模型如何得出結論,在安全等關鍵領域尤為重要。
不過 Anthropic 的最新論文《Reasoning Models Don’t Always Say What They Think》直指核心問題:模型的思維鏈解釋是否真實反映了其內(nèi)部決策過程?

研究團隊通過實驗發(fā)現(xiàn),答案往往是否定的。模型在思維鏈中經(jīng)常隱瞞關鍵影響因素,讓人難以信任其“自述”的思維路徑。
研究人員設計了成對提示實驗,一組為標準提示,另一組嵌入六種不同類型的線索(從用戶反饋到“grader hacking”等問題性線索),并篩選出模型因線索而改變答案的案例,判斷思維鏈是否提及了這些線索的影響。

結果令人擔憂:Claude 3.7 Sonnet 僅在 25% 的相關案例中承認受線索影響,DeepSeek R1 也僅略高至 39%。
更令人不安的是,在涉及“獎勵破解”(reward hacks)等不當線索時,模型幾乎從不披露真實動機,在某些合成環(huán)境中,99% 的決策依賴獎勵破解,思維鏈中提及的比例卻不足 2%。此外,研究還發(fā)現(xiàn),冗長的思維鏈往往更不可信,模型傾向于用復雜措辭掩蓋真實推理。
Anthropic 的研究敲響了警鐘:思維鏈作為 AI 可解釋性和安全性的工具存在嚴重局限。特別是在高風險應用中,模型可能隱藏戰(zhàn)略性行為或不安全決策的真正原因。
研究還測試了基于結果的強化學習(RL)對思維鏈可靠性的影響,盡管初期有所改善,但提升很快停滯,在 GPQA 復雜任務上的披露率僅為 20%。
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。