首頁 > 智能時代>人工智能

阿里通義深夜炸場：全球首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布開源，文本、圖像、音視頻全統(tǒng)一

2025/9/23 9:05:08 來源：IT之家作者：問舟責編：問舟

評論：

感謝IT之家網(wǎng)友軟媒用戶1053564、Snailwang 的線索投遞！

IT之家 9 月 23 日消息，又是熟悉的深夜，阿里云今日發(fā)布并開源了全新的 Qwen3-Omni、Qwen3-TTS，以及對標谷歌 Nano Banana 圖像編輯工具的 Qwen-Image-Edit-2509。

Qwen3-Omni 是業(yè)界首個原生端到端全模態(tài) AI 模型，能夠處理文本、圖像、音頻和視頻多種類型的輸入，并可通過文本與自然語音實時流式輸出結果，解決了長期以來多模態(tài)模型需要在不同能力之間進行權衡取舍的難題。

阿里通義深夜炸場：全球首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布開源，文本、圖像、音視頻全統(tǒng)一

Qwen3-Omni 是原生端到端的多語言全模態(tài)基礎模型，其核心特性主要包括：

跨模態(tài)最先進表現(xiàn)：通過早期以文本為核心的預訓練和混合多模態(tài)訓練，模型具備原生多模態(tài)能力。在實現(xiàn)強大音頻與音視頻性能的同時，單模態(tài)的文本與圖像效果保持不降。在 36 項音頻 / 視頻基準測試中，22 項達到了最新水平，其中 32 項在開源范圍內(nèi)處于領先；在自動語音識別（ASR）、音頻理解與語音對話方面表現(xiàn)可與 Gemini 2.5 Pro 相當。
多語言：支持 119 種文本語言、19 種語音輸入語言以及 10 種語音輸出語言。
語音輸入語言：英語、中文、韓語、日語、德語、俄語、意大利語、法語、西班牙語、葡萄牙語、馬來語、荷蘭語、印尼語、土耳其語、越南語、粵語、阿拉伯語、烏爾都語。
語音輸出語言：英語、中文、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語。
創(chuàng)新架構：基于 MoE（專家混合）的“思考者–表達者”設計，并結合 AuT 預訓練以獲得強大的通用表征能力，同時采用多碼本設計以將延遲降至最低。
實時音頻 / 視頻交互：低延遲流式交互，支持自然的輪流對話和即時的文本或語音響應。
靈活控制：可通過系統(tǒng)提示詞自定義行為，實現(xiàn)細粒度控制與輕松適配。
精細音頻描述： Qwen3-Omni-30B-A3B-Captioner 已開源，這是一個通用型、細節(jié)豐富、低幻覺率的音頻描述模型，填補了開源社區(qū)在該領域的空白。

阿里通義深夜炸場：全球首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布開源，文本、圖像、音視頻全統(tǒng)一

IT之家附官方地址：

GitHub：https://github.com/QwenLM/Qwen3-Omni
抱抱臉：https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
魔搭：https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
Demo：https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo

阿里通義深夜炸場：全球首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布開源，文本、圖像、音視頻全統(tǒng)一

TTS 即文本轉語音，阿里云此次發(fā)布的 TTS 支持 17 種音色選擇，每一種音色均支持 10 種語言。其中不僅包含多國語言，有：普通話、英語、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語；還支持了更多中國方言：閩南語、吳語、粵語、四川話、北京話、南京話、天津話和陜西話。

阿里通義深夜炸場：全球首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布開源，文本、圖像、音視頻全統(tǒng)一

此外，Qwen3-TTS-Flash 在多項評估基準上均取得了 SoTA 的表現(xiàn)，超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs，特別是在語音穩(wěn)定性和音色相似度。

延遲對比	Qwen3-TTS-Flash	Qwen-TTS
并發(fā)數(shù)	雙卡 12 并發(fā)	雙卡 6 并發(fā)
首包延遲（單并發(fā)）	97ms	200ms
首包延遲（滿并發(fā)）	420ms	733ms
首包大?。M并發(fā)且越大越好）	320ms	190ms
RTF（單并發(fā)）	0.30	0.43
RTF（滿并發(fā)）	0.51	0.72

官方地址：

Demo：https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo
博客：https://qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&amp;amp;amp;amp;amp;amp;amp;from=research.latest-advancements-list

阿里通義深夜炸場：全球首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布開源，文本、圖像、音視頻全統(tǒng)一

Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升級版本，和字節(jié)前幾天發(fā)布的即夢 4.0 圖像模型一樣主要是一致性上巨大提升。

與 8 月份發(fā)布的 Qwen-Image-Edit 相比，Qwen-Image-Edit-2509 的主要改進包括：

多圖像編輯支持：對于多圖像輸入，Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 架構，并通過圖像拼接進一步訓練，以實現(xiàn)多圖像編輯。它支持各種組合，如“人 + 人”、“人 + 產(chǎn)品”和“人 + 場景”。目前在 1 到 3 張輸入圖像時表現(xiàn)最佳。
增強的單圖像一致性：對于單圖像輸入，Qwen-Image-Edit-2509 顯著提高了編輯的一致性，特別是在以下方面：
改進的人像編輯一致性：更好地保留面部身份，支持各種肖像風格和姿勢變換；
改進的產(chǎn)品編輯一致性：更好地保留產(chǎn)品身份，支持產(chǎn)品海報編輯；
改進的文字編輯一致性：除了修改文字內(nèi)容外，還支持編輯文字字體、顏色和材質(zhì)；
原生支持 ControlNet：包括深度圖、邊緣圖、關鍵點圖等。

阿里通義深夜炸場：全球首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布開源，文本、圖像、音視頻全統(tǒng)一

官方地址：

博客：https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&amp;amp;amp;amp;amp;amp;from=research.latest-advancements-list
魔搭：https://modelscope.cn/models/Qwen/Qwen-Image-Edit-2509
抱抱臉：https://huggingface.co/Qwen/Qwen-Image-Edit-2509
GitHub：https://github.com/QwenLM/Qwen-Image

另外，Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 也已經(jīng)開源：

抱抱臉：https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
魔搭：https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

相關閱讀：

《阿里云發(fā)布通義 Qwen3-Next 基礎模型架構并開源 80B-A3B 系列：改進混合注意力機制、高稀疏度 MoE 結構》

廣告聲明：文內(nèi)含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：阿里云，通義千問，Qwen3Omni

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

阿里通義深夜炸場：全球首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布開源，文本、圖像、音視頻全統(tǒng)一

相關文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

阿里通義深夜炸場：全球首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布開源，文本、圖像、音視頻全統(tǒng)一

相關文章

阿里通義深夜炸場：全球首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布開源，文本、圖像、音視頻全統(tǒng)一