外國高三學生創(chuàng)建 AI 評測網站：讓模型在《我的世界》里“一決高下”

2025/3/22 15:26:55 來源：IT之家作者：清源責編：清源

評論：

IT之家 3 月 22 日消息，由于傳統(tǒng) AI 基準測試方法難以全面評估模型能力，AI 開發(fā)者正嘗試更具創(chuàng)意的測試方式，其中一種測試手段，則是微軟沙盒建造游戲《我的世界》。

據外媒 TechCrunch 報道，名為阿迪?辛格（Adi Singh）的高三學生創(chuàng)建了專門為 AI 評測而開發(fā)的網站 Minecraft Benchmark（簡稱 MC-Bench），讓 AI 模型在《我的世界》中同臺競技，基于相同的提示生成建筑作品。用戶可以為自己認為更出色的作品投票，而投票結束后才會顯示具體是哪款 AI 生成了哪些作品。

其認為選擇《我的世界》的意義并不在于游戲本身，而在于它的知名度。即便沒玩過這款游戲，人們依然能分辨哪個方塊狀的菠蘿更逼真?！啊段业氖澜纭纺茏?AI 發(fā)展的進步更加直觀，大家對《我的世界》的風格和視覺效果都很熟悉。”

目前，MC-Bench 的志愿貢獻者共有 8 人。IT之家從 MC-Bench 網站的信息獲悉，Anthropic、谷歌、OpenAI 和阿里巴巴為該項目提供了 AI 計算資源支持，但并未直接參與開發(fā)。

“目前，我們的測試仍然較為基礎，主要用于觀察 AI 從 GPT-3 時代至今的進步。但未來，我們或許會拓展到更復雜的目標導向任務和長期規(guī)劃能力評估，游戲或許是測試 AI 智能體推理能力的一種理想方式 —— 相比現實世界，它更安全，也更可控。”

外國高三學生創(chuàng)建 AI 評測網站：讓模型在《我的世界》里“一決高下”

嚴格來說，MC-Bench 仍屬于編程基準測試，因為 AI 需要編寫代碼來生成建筑，例如“霜雪人”或“熱帶風情的海濱小屋”。

相較于分析代碼，大多數用戶更容易通過作品本身來評判 AI 的表現。至于這些測試結果是否能真正衡量 AI 的實際應用價值，仍有待商榷。但辛格認為，這些數據仍然具備重要參考意義?！癕C-Bench 當前的排行榜與我的實際使用體驗高度吻合，而這在許多傳統(tǒng)文本基準測試中并不常見?；蛟S，它能幫助 AI 開發(fā)者判斷自己是否走在正確的方向上?！?/p>

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：人工智能，我的世界

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

外國高三學生創(chuàng)建 AI 評測網站：讓模型在《我的世界》里“一決高下”

相關文章