新研究發(fā)現(xiàn) AI 無法讀懂模擬時鐘，還不能告訴你某天是周幾

2025/5/17 22:27:32 來源：IT之家作者：清源責(zé)編：清源

評論：

IT之家 5 月 17 日消息，根據(jù)外媒 LiveScience 今日報道，有些人類能輕松完成的任務(wù)，AI 卻無法勝任。譬如，AI 能編程、畫出逼真的圖像、生成接近人類語氣的文本，甚至在部分考試中取得不錯成績，但在日常生活中最基礎(chǔ)的“看鐘”“算日子”這類事情上，卻頻繁出錯 —— 要么讀不準(zhǔn)指針位置，要么算不出星期幾。

研究人員在 2025 年“國際學(xué)習(xí)表征會議”（ ICLR ）上介紹了這項發(fā)現(xiàn)，有關(guān)的論文已經(jīng)在 arXiv 上發(fā)布，目前尚未通過同行評審。

愛丁堡大學(xué)研究員、論文作者 Rohit Saxena 表示：“人類從小就能掌握時間與日歷概念，而 AI 在這方面的不足，是一個值得警惕的信號?！彼赋?，若要將 AI 應(yīng)用于現(xiàn)實生活中對時間敏感的場景，比如排班、自動化流程或輔助技術(shù)，這類基本能力的缺陷必須解決。

新研究發(fā)現(xiàn) AI 無法讀懂模擬時鐘，還不能告訴你某天是周幾

研究團(tuán)隊向多個具備圖文處理能力的大語言模型輸入了一組專門制作的時鐘與日歷圖像，受測模型包括 Meta 的 Llama 3.2-Vision、Anthropic 的 Claude-3.5 Sonnet、谷歌的 Gemini 2.0 和 OpenAI 的 GPT-4o。測試結(jié)果顯示，這些模型在判斷時鐘時間或推算日期星期的任務(wù)上，正確率都未超過一半。

Saxena 表示：“過去的 AI 訓(xùn)練依賴大量帶標(biāo)簽的例子，而讀時鐘需要的是空間推理。模型不僅要識別指針是否重疊，還要理解角度、分辨各種風(fēng)格的表盤，比如羅馬數(shù)字或藝術(shù)化設(shè)計。這遠(yuǎn)比單純識別‘這是一個時鐘’更復(fù)雜?！?/p>

日歷問題同樣難住了 AI。例如在“每年第 153 天是星期幾”這類問題上，錯誤率依然居高不下。研究顯示，AI 讀時鐘的正確率僅為 38.7%，判斷日歷的準(zhǔn)確率更低，只有 26.3%。

Saxena 解釋道：“對傳統(tǒng)計算機(jī)來說，算術(shù)輕而易舉，但對大模型而言則不然。AI 并不執(zhí)行算法，而是依靠從訓(xùn)練數(shù)據(jù)中學(xué)到的模式來預(yù)測答案。”他指出，雖然 AI 有時能答對問題，但其推理過程缺乏一致性，也不基于固定規(guī)則，這正是研究所揭示的差距。

研究還揭示了另一個問題，即當(dāng) AI 的訓(xùn)練樣本缺乏某類現(xiàn)象時，比如閏年或復(fù)雜的日歷規(guī)則，其表現(xiàn)往往更差。Saxena 表示：“即使模型了解‘閏年’這一概念，也不代表它們能將這個知識正確應(yīng)用到具體的視覺判斷中?！?/p>

IT之家從報道中獲悉，研究強(qiáng)調(diào)了兩個方面的改進(jìn)方向：一是訓(xùn)練數(shù)據(jù)應(yīng)包含更多具有代表性的示例；二是應(yīng)重新審視 AI 如何整合邏輯推理與空間感知，尤其是在處理不常遇到的任務(wù)時。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

新研究發(fā)現(xiàn) AI 無法讀懂模擬時鐘，還不能告訴你某天是周幾

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

新研究發(fā)現(xiàn) AI 無法讀懂模擬時鐘，還不能告訴你某天是周幾

相關(guān)文章

新研究發(fā)現(xiàn) AI 無法讀懂模擬時鐘，還不能告訴你某天是周幾