在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

阿里云發(fā)布通義 Qwen3-Next 基礎(chǔ)模型架構(gòu)并開源 80B-A3B 系列:改進(jìn)混合注意力機(jī)制、高稀疏度 MoE 結(jié)構(gòu)

2025/9/12 6:45:34 來源:IT之家 作者:問舟 責(zé)編:問舟
感謝IT之家網(wǎng)友 咩咩洋、軟媒用戶1392612、軟媒用戶57758、仙人掌、KGTAF烏蠅哥的左手 的線索投遞!

IT之家 9 月 12 日消息,阿里云通義團(tuán)隊今日宣布推出其下一代基礎(chǔ)模型架構(gòu) Qwen3-Next,并開源了基于該架構(gòu)的 Qwen3-Next-80B-A3B 系列模型(Instruct 與 Thinking)。

通義團(tuán)隊表示,Context Length Scaling 和 Total Parameter Scaling 是未來大模型發(fā)展的兩大趨勢,為了進(jìn)一步提升模型在長上下文和大規(guī)??倕?shù)下的訓(xùn)練和推理效率,他們設(shè)計了全新的 Qwen3-Next 的模型結(jié)構(gòu)。

圖片

該結(jié)構(gòu)相比 Qwen3 的 MoE 模型結(jié)構(gòu),進(jìn)行了以下核心改進(jìn):混合注意力機(jī)制、高稀疏度 MoE 結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多 token 預(yù)測機(jī)制。

基于 Qwen3-Next 的模型結(jié)構(gòu),通義團(tuán)隊訓(xùn)練了 Qwen3-Next-80B-A3B-Base 模型,該模型擁有 800 億參數(shù)(僅激活 30 億參數(shù))、3B 激活的超稀疏 MoE 架構(gòu)(512 專家,路由 10 個 + 1 共享),結(jié)合 Hybrid Attention(Gated DeltaNet + Gated Attention)與多 Token 預(yù)測(MTP)。

IT之家從官方獲悉,該 Base 模型實現(xiàn)了與 Qwen3-32B dense 模型相近甚至略好的性能,而它的訓(xùn)練成本僅為 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐則是 Qwen3-32B 的十倍以上,實現(xiàn)了極致的訓(xùn)練和推理性價比。

圖片

該模型原生支持 262K 上下文,官方稱可外推至約 101 萬 tokens。據(jù)介紹,Instruct 版在若干評測中接近 Qwen3-235B,Thinking 版在部分推理任務(wù)上超過 Gemini-2.5-Flash-Thinking。

圖片

據(jù)介紹,其突破點在于同時實現(xiàn)了大規(guī)模參數(shù)容量、低激活開銷、長上下文處理與并行推理加速,在同類架構(gòu)中具有一定代表性。

圖片

模型權(quán)重已在 Hugging Face 以 Apache-2.0 許可發(fā)布,并可通過 Transformers、SGLang、vLLM 等框架部署;第三方平臺 OpenRouter 亦已上線。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:阿里云通義千問

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知