在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

阿里通義深夜炸場:全球首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布開源,文本、圖像、音視頻全統(tǒng)一

2025/9/23 9:05:08 來源:IT之家 作者:問舟 責編:問舟
感謝IT之家網(wǎng)友 軟媒用戶1053564、Snailwang 的線索投遞!

IT之家 9 月 23 日消息,又是熟悉的深夜,阿里云今日發(fā)布并開源了全新的 Qwen3-Omni、Qwen3-TTS,以及對標谷歌 Nano Banana 圖像編輯工具的 Qwen-Image-Edit-2509。

Qwen3-Omni 是業(yè)界首個原生端到端全模態(tài) AI 模型,能夠處理文本、圖像、音頻和視頻多種類型的輸入,并可通過文本與自然語音實時流式輸出結果,解決了長期以來多模態(tài)模型需要在不同能力之間進行權衡取舍的難題。

Qwen3-Omni 是原生端到端的多語言全模態(tài)基礎模型,其核心特性主要包括:

  • 跨模態(tài)最先進表現(xiàn):通過早期以文本為核心的預訓練和混合多模態(tài)訓練,模型具備原生多模態(tài)能力。在實現(xiàn)強大音頻與音視頻性能的同時,單模態(tài)的文本與圖像效果保持不降。在 36 項音頻 / 視頻基準測試中,22 項達到了最新水平,其中 32 項在開源范圍內(nèi)處于領先;在自動語音識別(ASR)、音頻理解與語音對話方面表現(xiàn)可與 Gemini 2.5 Pro 相當。

  • 多語言:支持 119 種文本語言、19 種語音輸入語言以及 10 種語音輸出語言。

  • 語音輸入語言:英語、中文、韓語、日語、德語、俄語、意大利語、法語、西班牙語、葡萄牙語、馬來語、荷蘭語、印尼語、土耳其語、越南語、粵語、阿拉伯語、烏爾都語。

  • 語音輸出語言:英語、中文、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語。

  • 創(chuàng)新架構:基于 MoE(專家混合)的“思考者–表達者”設計,并結合 AuT 預訓練以獲得強大的通用表征能力,同時采用多碼本設計以將延遲降至最低。

  • 實時音頻 / 視頻交互:低延遲流式交互,支持自然的輪流對話和即時的文本或語音響應。

  • 靈活控制:可通過系統(tǒng)提示詞自定義行為,實現(xiàn)細粒度控制與輕松適配。

  • 精細音頻描述: Qwen3-Omni-30B-A3B-Captioner 已開源,這是一個通用型、細節(jié)豐富、低幻覺率的音頻描述模型,填補了開源社區(qū)在該領域的空白。

IT之家附官方地址:

  • GitHub:https://github.com/QwenLM/Qwen3-Omni

  • 抱抱臉:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

  • 魔搭:https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f

  • Demo:https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo

TTS 即文本轉語音,阿里云此次發(fā)布的 TTS 支持 17 種音色選擇,每一種音色均支持 10 種語言。其中不僅包含多國語言,有:普通話、英語、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語;還支持了更多中國方言:閩南語、吳語、粵語、四川話、北京話、南京話、天津話和陜西話。

此外,Qwen3-TTS-Flash 在多項評估基準上均取得了 SoTA 的表現(xiàn),超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs,特別是在語音穩(wěn)定性和音色相似度。

延遲對比Qwen3-TTS-FlashQwen-TTS
并發(fā)數(shù)雙卡 12 并發(fā)雙卡 6 并發(fā)
首包延遲(單并發(fā))97ms200ms
首包延遲(滿并發(fā))420ms733ms
首包大?。M并發(fā)且越大越好)320ms190ms
RTF(單并發(fā))0.300.43
RTF(滿并發(fā))0.510.72

官方地址:

  • Demo:https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo

  • 博客:https://qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list

Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升級版本,和字節(jié)前幾天發(fā)布的即夢 4.0 圖像模型一樣主要是一致性上巨大提升。

與 8 月份發(fā)布的 Qwen-Image-Edit 相比,Qwen-Image-Edit-2509 的主要改進包括:

  • 多圖像編輯支持:對于多圖像輸入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 架構,并通過圖像拼接進一步訓練,以實現(xiàn)多圖像編輯。它支持各種組合,如“人 + 人”、“人 + 產(chǎn)品”和“人 + 場景”。目前在 1 到 3 張輸入圖像時表現(xiàn)最佳。

  • 增強的單圖像一致性:對于單圖像輸入,Qwen-Image-Edit-2509 顯著提高了編輯的一致性,特別是在以下方面:

  • 改進的人像編輯一致性:更好地保留面部身份,支持各種肖像風格和姿勢變換;

  • 改進的產(chǎn)品編輯一致性:更好地保留產(chǎn)品身份,支持產(chǎn)品海報編輯;

  • 改進的文字編輯一致性:除了修改文字內(nèi)容外,還支持編輯文字字體、顏色和材質(zhì);

  • 原生支持 ControlNet:包括深度圖、邊緣圖、關鍵點圖等。

官方地址:

  • 博客:https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list

  • 魔搭:https://modelscope.cn/models/Qwen/Qwen-Image-Edit-2509

  • 抱抱臉:https://huggingface.co/Qwen/Qwen-Image-Edit-2509

  • GitHub:https://github.com/QwenLM/Qwen-Image

另外,Qwen3-Next-80B-A3B-Instruct-FP8Qwen3-Next-80B-A3B-Thinking-FP8 也已經(jīng)開源:

  • 抱抱臉:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d

  • 魔搭:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

相關閱讀:

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知