在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

阿里發(fā)布千問旗艦推理模型 Qwen3-Max-Thinking:總參數(shù)超萬億,號稱性能媲美 GPT-5.2

2026/1/26 23:35:26 來源:IT之家 作者:清源 責(zé)編:清源
感謝IT之家網(wǎng)友 斯文當(dāng)不了飯吃Domado、HH_KK、Kazutokkkkkkkkkayd 的線索投遞!

IT之家 1 月 26 日消息,北京時間今天晚間,阿里發(fā)布千問旗艦推理模型 Qwen3-Max-Thinking。根據(jù)官方介紹,其在多個關(guān)鍵維度上實現(xiàn)了顯著提升,包括事實知識、復(fù)雜推理、指令遵循、人類偏好對齊以及智能體能力。在 19 項權(quán)威基準(zhǔn)測試中,其性能可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等頂尖模型

圖片

千問新模型總參數(shù)超萬億,進(jìn)行了更大規(guī)模的強化學(xué)習(xí)后訓(xùn)練,并通過推理技術(shù)的系列創(chuàng)新,最終完成模型性能的大幅飛躍。在多項關(guān)鍵性能基準(zhǔn)測試中,Qwen3-Max-Thinking 還大幅增強了自主調(diào)用工具的原生 Agent 能力,模型可像專業(yè)人士一樣邊用工具邊思考,回答更合用戶心意、更智能、更流暢。同時,模型幻覺也大為降低,為解決真實復(fù)雜任務(wù)打下基礎(chǔ)。

根據(jù)官方介紹,Qwen3-Max-Thinking 刷新了數(shù)項最佳表現(xiàn)(SOTA)紀(jì)錄,特別在科學(xué)知識(GPQA Diamond)、數(shù)學(xué)推理(IMO-AnswerBench)、代碼編程(LiveCodeBench)等多項關(guān)鍵性能基準(zhǔn)測試中表現(xiàn)優(yōu)異,達(dá)到國際領(lǐng)先水平。

Qwen3-Max-Thinking 現(xiàn)已上線 Qwen Chat,用戶可直接與模型及其自適應(yīng)工具調(diào)用功能進(jìn)行交互。同時,Qwen3-Max-Thinking 的 API(模型名稱為 qwen3-max-2026-01-23)也已開放。

IT之家附體驗鏈接:

據(jù)悉,Qwen3-Max-Thinking 擁有兩項核心創(chuàng)新。

  • 自適應(yīng)工具調(diào)用能力,可按需調(diào)用搜索引擎和代碼解釋器,現(xiàn)已上線 Qwen Chat;

  • 測試時擴展技術(shù)(Test-Time Scaling),顯著提升推理性能,在關(guān)鍵推理基準(zhǔn)上超越 Gemini 3 Pro。

圖片

官方對此的介紹如下:

自適應(yīng)工具調(diào)用能力

與早期需要用戶手動選擇工具的方法不同,Qwen3-Max-Thinking 能在對話中自主選擇并調(diào)用其內(nèi)置的搜索、記憶和代碼解釋器功能。該能力源于專門設(shè)計的訓(xùn)練流程:在完成初步的工具使用微調(diào)后,模型在多樣化任務(wù)上使用基于規(guī)則和模型的反饋進(jìn)行了進(jìn)一步訓(xùn)練。實驗表明,搜索和記憶工具能有效緩解幻覺、提供實時信息訪問并支持更個性化的回復(fù)。代碼解釋器允許用戶執(zhí)行代碼片段并應(yīng)用計算推理來解決復(fù)雜問題。這些功能共同提供了流暢且強大的對話體驗。

測試時拓展技術(shù)

測試時擴展是指在推理階段分配額外計算資源以提升模型性能的技術(shù)。我們提出了一種經(jīng)驗累積式、多輪迭代的測試時擴展策略。不同于簡單增加并行推理路徑數(shù)量 N(這往往導(dǎo)致冗余推理),我們限制 N 并將節(jié)省的計算資源用于由“經(jīng)驗提取”機制引導(dǎo)的迭代式自我反思。該機制從過往推理輪次中提煉關(guān)鍵洞見,使模型避免重復(fù)推導(dǎo)已知結(jié)論,轉(zhuǎn)而聚焦于未解決的不確定性。關(guān)鍵在于,相比直接引用原始推理軌跡,該機制實現(xiàn)了更高的上下文利用效率,在相同上下文窗口內(nèi)能更充分地融合歷史信息。在大致相同的 token 消耗下,該方法持續(xù)優(yōu)于標(biāo)準(zhǔn)的并行采樣與聚合方法:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:阿里,千問

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知