阿里通義千問(wèn) 2.5-Omni-3B AI 全模態(tài)登場(chǎng)：7B 版 90% 性能，顯存占用減少 53%

2025/5/1 10:30:28 來(lái)源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

感謝IT之家網(wǎng)友小星_14 的線索投遞！

IT之家 5 月 1 日消息，阿里巴巴持續(xù)發(fā)力 AI 領(lǐng)域，其 Qwen 團(tuán)隊(duì)于 3 月發(fā)布 Qwen2.5-Omni-7B 模型后，昨日（4 月 30 日）再次發(fā)布 Qwen2.5-Omni-3B，目前可以在 Hugging Face 上開(kāi)放下載。

IT之家注：這款 3B 參數(shù)模型是其 7B 旗艦多模態(tài)模型的輕量版本，專為消費(fèi)級(jí)硬件設(shè)計(jì)，覆蓋文本、音頻、圖像和視頻等多種輸入功能。

團(tuán)隊(duì)表示，盡管參數(shù)規(guī)?？s小，3B 版本在多模態(tài)性能上仍保持了 7B 模型的 90% 以上，尤其在實(shí)時(shí)文本生成和自然語(yǔ)音輸出方面表現(xiàn)亮眼。

阿里通義千問(wèn) 2.5-Omni-3B AI 全模態(tài)登場(chǎng)：7B 版 90% 性能，顯存占用減少 53%

基準(zhǔn)測(cè)試顯示，其在視頻理解（VideoBench: 68.8）和語(yǔ)音生成（Seed-tts-eval test-hard: 92.1）等任務(wù)中接近 7B 模型水平。

Qwen2.5-Omni-3B 在內(nèi)存使用上的改進(jìn)尤為突出。團(tuán)隊(duì)報(bào)告稱，處理 25,000 token 的長(zhǎng)上下文輸入時(shí)，該模型 VRAM 占用減少 53%，從 7B 模型的 60.2 GB 降至 28.2 GB。

阿里通義千問(wèn) 2.5-Omni-3B AI 全模態(tài)登場(chǎng)：7B 版 90% 性能，顯存占用減少 53%

這意味著該模型可在 24GB GPU 上運(yùn)行，無(wú)需企業(yè)級(jí) GPU 集群支持，可以在高端臺(tái)式機(jī)和筆記本電腦上運(yùn)行。

其架構(gòu)創(chuàng)新，如 Thinker-Talker 設(shè)計(jì)和定制位置嵌入方法 TMRoPE，確保了視頻與音頻輸入的同步理解。此外，模型支持 FlashAttention 2 和 BF16 精度優(yōu)化，進(jìn)一步提升速度并降低內(nèi)存消耗。

阿里通義千問(wèn) 2.5-Omni-3B AI 全模態(tài)登場(chǎng)：7B 版 90% 性能，顯存占用減少 53%

Qwen2.5-Omni-3B 的使用受到嚴(yán)格限制。根據(jù)許可條款，該模型僅限研究用途，企業(yè)若想開(kāi)發(fā)商業(yè)產(chǎn)品，必須先從阿里巴巴 Qwen 團(tuán)隊(duì)獲取單獨(dú)許可，意味著該模型非直接生產(chǎn)部署，定位更偏向于測(cè)試和原型開(kāi)發(fā)。

參考

Hugging Face
GitHub 頁(yè)面
魔搭社區(qū)
Multimodal AI on Developer GPUs: Alibaba Releases Qwen2.5-Omni-3B with 50% Lower VRAM Usage and Nearly-7B Model Performance
Qwen swings for a double with 2.5-Omni-3B model that runs on consumer PCs, laptops

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

阿里通義千問(wèn) 2.5-Omni-3B AI 全模態(tài)登場(chǎng)：7B 版 90% 性能，顯存占用減少 53%

相關(guān)文章

阿里通義千問(wèn) 2.5-Omni-3B AI 全模態(tài)登場(chǎng)：7B 版 90% 性能，顯存占用減少 53%