在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

阿里云通義千問發(fā)布新一代端到端多模態(tài)旗艦模型 Qwen2.5-Omni 并開源,看聽說寫樣樣精通

2025/3/27 6:39:17 來源:IT之家 作者:問舟 責編:問舟
感謝IT之家網(wǎng)友 _Ikaros_烏蠅哥的左手 的線索投遞!

IT之家 3 月 27 日消息,今日凌晨,阿里云發(fā)布通義千問 Qwen 模型家族中新一代端到端多模態(tài)旗艦模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上開源。

阿里云表示,該模型專為全方位多模態(tài)感知設計,能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過實時流式響應同時生成文本與自然語音合成輸出。IT之家匯總其主要特點如下:

  • 全能創(chuàng)新架構:Qwen 團隊提出了一種全新的 Thinker-Talker 架構,這是一種端到端的多模態(tài)模型,旨在支持文本 / 圖像 / 音頻 / 視頻的跨模態(tài)理解,同時以流式方式生成文本和自然語音響應。Qwen 提出了一種新的位置編碼技術,稱為 TMRoPE(Time-aligned Multimodal RoPE),通過時間軸對齊實現(xiàn)視頻與音頻輸入的精準同步。

  • 實時音視頻交互:架構旨在支持完全實時交互,支持分塊輸入和即時輸出。

  • 自然流暢的語音生成:在語音生成的自然性和穩(wěn)定性方面超越了許多現(xiàn)有的流式和非流式替代方案。

  • 全模態(tài)性能優(yōu)勢:在同等規(guī)模的單模態(tài)模型進行基準測試時,表現(xiàn)出卓越的性能。Qwen2.5-Omni 在音頻能力上優(yōu)于類似大小的 Qwen2-Audio,并與 Qwen2.5-VL-7B 保持同等水平。

  • 卓越的端到端語音指令跟隨能力:Qwen2.5-Omni 在端到端語音指令跟隨方面表現(xiàn)出與文本輸入處理相媲美的效果,在 MMLU 通用知識理解和 GSM8K 數(shù)學推理等基準測試中表現(xiàn)優(yōu)異。

據(jù)官方介紹,Qwen2.5-Omni 采用 Thinker-Talker 雙核架構。Thinker 模塊如同大腦,負責處理文本、音頻、視頻等多模態(tài)輸入,生成高層語義表征及對應文本內(nèi)容;Talker 模塊則類似發(fā)聲器官,以流式方式接收 Thinker 實時輸出的語義表征與文本,流暢合成離散語音單元。Thinker 基于 Transformer 解碼器架構,融合音頻 / 圖像編碼器進行特征提取;Talker 則采用雙軌自回歸 Transformer 解碼器設計,在訓練和推理過程中直接接收來自 Thinker 的高維表征,并共享全部歷史上下文信息,形成端到端的統(tǒng)一模型架構。

圖片

模型架構圖

模型性能方面,Qwen2.5-Omni 在包括圖像,音頻,音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模態(tài)任務 OmniBench,Qwen2.5-Omni 達到了 SOTA 的表現(xiàn)。此外,在單模態(tài)任務中,Qwen2.5-Omni 在多個領域中表現(xiàn)優(yōu)異,包括語音識別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)以及語音生成(Seed-tts-eval 和主觀自然聽感)。

image

▲ 模型性能圖
  • Qwen Chat:https://chat.qwenlm.ai

  • Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

  • DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

  • GitHub:https://github.com/QwenLM/Qwen2.5-Omni

  • Demo 體驗:https://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:阿里云,Qwen2.5 Omni,通義千問

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知