在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

<bdo id="6p2oj"><span id="6p2oj"><meter id="6p2oj"></meter></span></bdo>

首頁(yè)

最會(huì)買

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁(yè) > 智能時(shí)代>人工智能

馬斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，實(shí)現(xiàn)第 33 → 1 位性能躍升

2025/11/18 8:53:15 來源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

感謝IT之家網(wǎng)友 Snailwang 的線索投遞！

IT之家 11 月 18 日消息，埃隆?馬斯克（Elon Musk）旗下的人工智能公司 xAI 昨日（11 月 17 日）發(fā)布公告，宣布推出最新大語(yǔ)言模型 Grok 4.1，并已面向 grok.com、?? 平臺(tái)及移動(dòng)應(yīng)用（iOS 和安卓）所有用戶全面推送。

馬斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，實(shí)現(xiàn)第 33 → 1 位性能躍升

本次更新旨在全面提升 Grok 在真實(shí)世界場(chǎng)景下的可用性。官方表示，Grok 4.1 不僅繼承了前代模型敏銳的智能與高可靠性，更在創(chuàng)造性、情感理解和協(xié)作互動(dòng)方面實(shí)現(xiàn)了重大改進(jìn)，讓其能夠更精準(zhǔn)地感知用戶細(xì)微意圖，提供更具吸引力和人格連貫性的對(duì)話體驗(yàn)。

馬斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，實(shí)現(xiàn)第 33 → 1 位性能躍升

Grok 4.1 的性能實(shí)現(xiàn)了業(yè)界頂尖水平。在大型語(yǔ)言模型競(jìng)技場(chǎng)（LMArena）的文本能力排行榜上，其具備深度思考能力的版本（代號(hào)：quasarflux）以 1483 的 Elo 分?jǐn)?shù)高居榜首，領(lǐng)先第二名達(dá) 31 分。IT之家附上相關(guān)截圖如下：

馬斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，實(shí)現(xiàn)第 33 → 1 位性能躍升

更引人注目的是，其無需深度思考的“即時(shí)響應(yīng)”版本也以 1465 的 Elo 分?jǐn)?shù)位列第二，性能甚至超越了其他所有模型的“全推理”模式。這一成績(jī)相較于前代 Grok 4（排名第 33 位）實(shí)現(xiàn)了巨大飛躍，也印證了其在底層能力上的絕對(duì)優(yōu)勢(shì)。

馬斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，實(shí)現(xiàn)第 33 → 1 位性能躍升

除了在通用能力基準(zhǔn)測(cè)試中表現(xiàn)出色，Grok 4.1 還在“軟實(shí)力”方面取得了顯著進(jìn)步。在衡量模型情商的 EQ-Bench3 基準(zhǔn)測(cè)試和評(píng)估創(chuàng)意能力的 Creative Writing v3 測(cè)試中，新模型均表現(xiàn)優(yōu)異。

馬斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，實(shí)現(xiàn)第 33 → 1 位性能躍升

在評(píng)估情感理解、洞察力和人際交往能力的 EQ-Bench3 基準(zhǔn)測(cè)試中，Grok 4.1 的推理與非推理模式包攬了榜單前兩名。

馬斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，實(shí)現(xiàn)第 33 → 1 位性能躍升

在創(chuàng)意寫作領(lǐng)域，根據(jù) Creative Writing v3 基準(zhǔn)測(cè)試結(jié)果，Grok 4.1 的兩種模式分別位列第二和第三，僅次于早期的 GPT-5.1 模型。

馬斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，實(shí)現(xiàn)第 33 → 1 位性能躍升

這意味著 Grok 4.1 不僅能處理復(fù)雜的邏輯推理，還能更好地理解并回應(yīng)帶有人類情感的提示，進(jìn)行富有想象力的內(nèi)容創(chuàng)作，讓其在人機(jī)交互中更具“人情味”。

另一項(xiàng)關(guān)鍵改進(jìn)在于大幅降低了模型的“幻覺”率。對(duì)于配備搜索工具的快速響應(yīng)模型而言，由于推理深度和工具調(diào)用預(yù)算有限，容易出現(xiàn)事實(shí)性錯(cuò)誤。

馬斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，實(shí)現(xiàn)第 33 → 1 位性能躍升

x.ai 在 Grok 4.1 的訓(xùn)練后期，特別針對(duì)優(yōu)化信息查詢類提示，專注于減少事實(shí)性幻覺。根據(jù)對(duì)真實(shí)世界查詢樣本的評(píng)估，新模型的幻覺率已顯著降低，從而為用戶提供更可靠、更準(zhǔn)確的信息。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：Grok，xAI，馬斯克，AI

軟媒旗下網(wǎng)站： IT之家最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機(jī)APP應(yīng)用魔方最會(huì)買要知

<bdo id="h2psl"><span id="h2psl"><meter id="h2psl"></meter></span></bdo>

<bdo id="h2psl"><span id="h2psl"><meter id="h2psl"></meter></span></bdo>

<pre id="h2psl"><label id="h2psl"><label id="h2psl"></label></label></pre>