阿里發(fā)布千問旗艦推理模型 Qwen3-Max-Thinking：總參數(shù)超萬億，號稱性能媲美 GPT-5.2

2026/1/26 23:35:26 來源：IT之家作者：清源責(zé)編：清源

評論：

感謝IT之家網(wǎng)友斯文當(dāng)不了飯吃、Domado、HH_KK、Kazuto、kkkkkkkkkayd 的線索投遞！

IT之家 1 月 26 日消息，北京時間今天晚間，阿里發(fā)布千問旗艦推理模型 Qwen3-Max-Thinking。根據(jù)官方介紹，其在多個關(guān)鍵維度上實現(xiàn)了顯著提升，包括事實知識、復(fù)雜推理、指令遵循、人類偏好對齊以及智能體能力。在 19 項權(quán)威基準(zhǔn)測試中，其性能可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等頂尖模型。

千問新模型總參數(shù)超萬億，進(jìn)行了更大規(guī)模的強(qiáng)化學(xué)習(xí)后訓(xùn)練，并通過推理技術(shù)的系列創(chuàng)新，最終完成模型性能的大幅飛躍。在多項關(guān)鍵性能基準(zhǔn)測試中，Qwen3-Max-Thinking 還大幅增強(qiáng)了自主調(diào)用工具的原生 Agent 能力，模型可像專業(yè)人士一樣邊用工具邊思考，回答更合用戶心意、更智能、更流暢。同時，模型幻覺也大為降低，為解決真實復(fù)雜任務(wù)打下基礎(chǔ)。

根據(jù)官方介紹，Qwen3-Max-Thinking 刷新了數(shù)項最佳表現(xiàn)（SOTA）紀(jì)錄，特別在科學(xué)知識（GPQA Diamond）、數(shù)學(xué)推理（IMO-AnswerBench）、代碼編程（LiveCodeBench）等多項關(guān)鍵性能基準(zhǔn)測試中表現(xiàn)優(yōu)異，達(dá)到國際領(lǐng)先水平。

Qwen3-Max-Thinking 現(xiàn)已上線 Qwen Chat，用戶可直接與模型及其自適應(yīng)工具調(diào)用功能進(jìn)行交互。同時，Qwen3-Max-Thinking 的 API（模型名稱為 qwen3-max-2026-01-23）也已開放。

IT之家附體驗鏈接：

Qwen Chat：chat.qwen.ai
阿里云百煉：https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

據(jù)悉，Qwen3-Max-Thinking 擁有兩項核心創(chuàng)新。

自適應(yīng)工具調(diào)用能力，可按需調(diào)用搜索引擎和代碼解釋器，現(xiàn)已上線 Qwen Chat；
測試時擴(kuò)展技術(shù)（Test-Time Scaling），顯著提升推理性能，在關(guān)鍵推理基準(zhǔn)上超越 Gemini 3 Pro。

官方對此的介紹如下：

自適應(yīng)工具調(diào)用能力
與早期需要用戶手動選擇工具的方法不同，Qwen3-Max-Thinking 能在對話中自主選擇并調(diào)用其內(nèi)置的搜索、記憶和代碼解釋器功能。該能力源于專門設(shè)計的訓(xùn)練流程：在完成初步的工具使用微調(diào)后，模型在多樣化任務(wù)上使用基于規(guī)則和模型的反饋進(jìn)行了進(jìn)一步訓(xùn)練。實驗表明，搜索和記憶工具能有效緩解幻覺、提供實時信息訪問并支持更個性化的回復(fù)。代碼解釋器允許用戶執(zhí)行代碼片段并應(yīng)用計算推理來解決復(fù)雜問題。這些功能共同提供了流暢且強(qiáng)大的對話體驗。
測試時拓展技術(shù)
測試時擴(kuò)展是指在推理階段分配額外計算資源以提升模型性能的技術(shù)。我們提出了一種經(jīng)驗累積式、多輪迭代的測試時擴(kuò)展策略。不同于簡單增加并行推理路徑數(shù)量 N（這往往導(dǎo)致冗余推理），我們限制 N 并將節(jié)省的計算資源用于由“經(jīng)驗提取”機(jī)制引導(dǎo)的迭代式自我反思。該機(jī)制從過往推理輪次中提煉關(guān)鍵洞見，使模型避免重復(fù)推導(dǎo)已知結(jié)論，轉(zhuǎn)而聚焦于未解決的不確定性。關(guān)鍵在于，相比直接引用原始推理軌跡，該機(jī)制實現(xiàn)了更高的上下文利用效率，在相同上下文窗口內(nèi)能更充分地融合歷史信息。在大致相同的 token 消耗下，該方法持續(xù)優(yōu)于標(biāo)準(zhǔn)的并行采樣與聚合方法：GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

阿里發(fā)布千問旗艦推理模型 Qwen3-Max-Thinking：總參數(shù)超萬億，號稱性能媲美 GPT-5.2

自適應(yīng)工具調(diào)用能力

測試時拓展技術(shù)

相關(guān)文章

阿里發(fā)布千問旗艦推理模型 Qwen3-Max-Thinking：總參數(shù)超萬億，號稱性能媲美 GPT-5.2