OpenAI 新推理模型被曝產(chǎn)生更多“幻覺”，o3 / o4-mini 性能與錯誤率一同提升

2025/4/19 7:46:39 來源：IT之家作者：清源責編：清源

評論：

IT之家 4 月 19 日消息，OpenAI 最新發(fā)布的 o3 和 o4-mini 模型在多個方面展現(xiàn)出業(yè)內(nèi)領(lǐng)先的水準，不過，這兩款模型依然無法擺脫“幻覺”問題 —— 甚至比以往發(fā)布的模型更加嚴重。

據(jù)外媒 TechCrunch 今日報道，幻覺問題一直是生成式 AI 發(fā)展過程中最難解決的挑戰(zhàn)之一，即使是目前性能最優(yōu)秀的模型也難以完全避免。過去，每一代新模型在降低幻覺頻率方面通常都會取得小幅進步，但 o3 和 o4-mini 卻打破了這一趨勢。

根據(jù) OpenAI 的內(nèi)部測試，作為推理模型的 o3 和 o4-mini，出現(xiàn)幻覺的頻率不僅超過了前代推理模型 o1、o1-mini 和 o3-mini，甚至還高于傳統(tǒng)“非推理”模型（IT之家注：如 GPT-4o）。

OpenAI 在針對這兩款模型發(fā)布的技術(shù)報告中表示：“要弄清楚隨著推理模型規(guī)模的擴大，幻覺問題為何反而變得更加嚴重，還需要進一步研究?！眻蟾嬷赋?，盡管 o3 和 o4-mini 在編程和數(shù)學(xué)等任務(wù)上的表現(xiàn)優(yōu)于以往，但由于模型輸出的答案總量增加，導(dǎo)致其既能作出更多準確判斷，同時也不可避免地出現(xiàn)更多錯誤甚至幻覺。

在 OpenAI 設(shè)計的內(nèi)部基準測試 PersonQA 中，o3 回答問題時出現(xiàn)幻覺的比例達到 33%，幾乎是前代推理模型 o1 和 o3-mini 的兩倍，后者的幻覺率分別為 16% 和 14.8%。在同一測試中，o4-mini 的表現(xiàn)更差，幻覺率高達 48%。

第三方機構(gòu) Transluce 的測試也印證了這一問題。這家非營利 AI 研究實驗室發(fā)現(xiàn)，o3 在回答問題時經(jīng)常會憑空捏造出某些“過程操作”。例如，Transluce 曾觀察到，o3 聲稱自己在一臺 2021 款 MacBook Pro 上“在 ChatGPT 之外”運行了代碼，并將結(jié)果復(fù)制進了答案中。實際上，雖然 o3 擁有一部分工具訪問權(quán)限，但并不具備執(zhí)行這種操作的能力。

OpenAI 發(fā)言人 Niko Felix 表示：“解決幻覺問題是我們一直在推進的重點研究方向，我們也在不斷努力提升模型的準確性與可靠性?！?/p>

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

OpenAI 新推理模型被曝產(chǎn)生更多“幻覺”，o3 / o4-mini 性能與錯誤率一同提升

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

OpenAI 新推理模型被曝產(chǎn)生更多“幻覺”，o3 / o4-mini 性能與錯誤率一同提升

相關(guān)文章

OpenAI 新推理模型被曝產(chǎn)生更多“幻覺”，o3 / o4-mini 性能與錯誤率一同提升