阿里云棲大會(huì)一口氣發(fā)布千問 3-VL、萬(wàn)相 2.5 等六大模型 + 通義百聆新品牌，覆蓋文本、視覺、語(yǔ)音、視頻、代碼、圖像全場(chǎng)景

2025/9/24 13:58:38 來(lái)源：IT之家作者：問舟責(zé)編：問舟

評(píng)論：

感謝IT之家網(wǎng)友軟媒用戶1369491、西窗的線索投遞！

IT之家 9 月 24 日消息，在今日的 2025 云棲大會(huì)上，阿里集團(tuán)董事兼 CEO 吳泳銘表示，積極推進(jìn) 3800 億 AI 基礎(chǔ)設(shè)施建設(shè)，并計(jì)劃追加更大投入。會(huì)上，阿里推出了 6 款新模型 + 1 個(gè)全新品牌：

Qwen MAX：萬(wàn)億參數(shù)大模型，Coding 與工具調(diào)用能力登頂國(guó)際榜單；
Qwen3-Omni：新一代原生全模態(tài)大模型，真正實(shí)現(xiàn)“全模態(tài)不降智”；
Qwen3-VL：Agent 和 Coding 能力全面提升，真正“看懂、理解并響應(yīng)世界”；
Qwen-Image：再升級(jí)！真正實(shí)現(xiàn)“改字不崩臉、換裝不走樣”；
Qwen3-Coder：256K 上下文修復(fù)項(xiàng)目，TerminalBench 分?jǐn)?shù)大幅提升；
Wan2.5-Preview：音畫同步視頻生成，圖像支持科學(xué)圖表與藝術(shù)字；
通義百聆：企業(yè)級(jí)語(yǔ)音基座大模型，攻克企業(yè)落地語(yǔ)音模型的“最后一公里”；

其中，通義千問 Qwen-MAX、Qwen3-Omni、 Qwen-Image-Edit-2509 此前已有報(bào)道。

至于其余模型，Qwen3-VL 是一款真正實(shí)現(xiàn)“看懂世界、理解事件、做出行動(dòng)”的視覺理解模型，支持 2 小時(shí)視頻精確定位（如“第 15 分鐘穿紅衣者做了什么”），OCR 語(yǔ)言從 19 種擴(kuò)展至 32 種，生僻字、古籍、傾斜文本識(shí)別率顯著提升；原生支持 256K 上下文，可擴(kuò)展至 100 萬(wàn) token，適配超長(zhǎng)視頻與文檔分析。

阿里云棲大會(huì)一口氣發(fā)布千問 3-VL、萬(wàn)相 2.5 等六大模型 + 通義百聆新品牌，覆蓋文本、視覺、語(yǔ)音、視頻、代碼、圖像全場(chǎng)景

本次發(fā)布重點(diǎn)強(qiáng)化以下能力：

視覺智能體：可操作電腦和手機(jī)界面，識(shí)別 GUI 元素、理解按鈕功能、調(diào)用工具并執(zhí)行任務(wù)，在 OS World 等評(píng)測(cè)中達(dá)到世界頂尖水平；
可視化編程：看到 UI 設(shè)計(jì)圖或流程圖，可直接生成 HTML / CSS / JS 代碼或 Draw.io 圖表，大幅提升產(chǎn)品與開發(fā)協(xié)作效率；
空間感知與 3D Grounding：支持判斷物體方位、視角變化與遮擋關(guān)系，為具身智能、機(jī)器人導(dǎo)航、AR / VR 等場(chǎng)景提供底層支持；
超長(zhǎng)視頻理解與行為分析：不僅能理解 2 小時(shí)視頻內(nèi)容，還能精準(zhǔn)回答“第 15 分鐘穿紅衣者做了什么”“球從哪個(gè)方向飛入畫面”等時(shí)序與行為問題；
Thinking 版本強(qiáng)化 STEM 推理：在 MathVista、MathVision、CharXiv 等評(píng)測(cè)中達(dá) SOTA 水平，可精準(zhǔn)解析科學(xué)圖表、公式與文獻(xiàn)圖像；
視覺感知全面升級(jí)：優(yōu)化預(yù)訓(xùn)練數(shù)據(jù)，支持“萬(wàn)物識(shí)別”—— 從名人、動(dòng)漫角色、商品、地標(biāo)到動(dòng)植物，覆蓋生活與專業(yè)場(chǎng)景；
多語(yǔ)言 OCR 與復(fù)雜場(chǎng)景支持：語(yǔ)言擴(kuò)展至 32 種，復(fù)雜光線、模糊、傾斜文本識(shí)別更穩(wěn)定，生僻字、古籍字、專業(yè)術(shù)語(yǔ)召回率顯著提升；
安防感知與風(fēng)險(xiǎn)預(yù)警：在家庭、商場(chǎng)、街區(qū)、道路等真實(shí)場(chǎng)景中，對(duì)風(fēng)險(xiǎn)人物與事件的檢測(cè)準(zhǔn)確率達(dá)到行業(yè)領(lǐng)先水平；
長(zhǎng)上下文原生支持：256K 起步，可擴(kuò)展至 100 萬(wàn) token，支持整本教材、數(shù)小時(shí)會(huì)議錄像的全程記憶與精準(zhǔn)檢索。

阿里云棲大會(huì)一口氣發(fā)布千問 3-VL、萬(wàn)相 2.5 等六大模型 + 通義百聆新品牌，覆蓋文本、視覺、語(yǔ)音、視頻、代碼、圖像全場(chǎng)景

Qwen-Image 是開源圖片編輯專家，本次也迎來(lái)全新升級(jí)，新版本支持多圖參考編輯，強(qiáng)化人臉、商品、文字 ID 一致性，并原生集成 ControlNet，實(shí)現(xiàn)“改字不崩臉、換裝不走樣”的工業(yè)級(jí)穩(wěn)定性，滿足電商、設(shè)計(jì)、廣告等高要求場(chǎng)景。

本次升級(jí)核心亮點(diǎn)：

多圖編輯支持：對(duì)于多圖輸入，Qwen-Image-Edit-2509 基于 Qwen-Image 基模，不僅能夠處理各種單圖編輯場(chǎng)景，而且全新支持了多種多圖編輯場(chǎng)景，提供“人物 + 人物”，“人物 + 商品”，“人物 + 場(chǎng)景”等多種新玩法。
單圖編輯一致性增強(qiáng)：對(duì)于單圖編輯場(chǎng)景，Qwen-Image-Edit-2509 相比之前，顯著提高了各個(gè)維度的一致性，主要體現(xiàn)在以下方面：

人物編輯一致性增強(qiáng)：增強(qiáng)人物 ID 保持，支持各種風(fēng)格肖像、姿勢(shì)變換；
商品編輯一致性增強(qiáng)：增強(qiáng)商品 ID 保持，支持各種商品海報(bào)編輯；
文字編輯一致性增強(qiáng)：除了支持文字內(nèi)容修改外，還支持多種文字字體、色彩以及材質(zhì)編輯；

原生支持 ControlNet：支持包括深度圖、邊緣圖、關(guān)鍵點(diǎn)圖等引導(dǎo)信息。

阿里云棲大會(huì)一口氣發(fā)布千問 3-VL、萬(wàn)相 2.5 等六大模型 + 通義百聆新品牌，覆蓋文本、視覺、語(yǔ)音、視頻、代碼、圖像全場(chǎng)景

Qwen3-Coder 上下文代碼專家本次迎來(lái)能力升級(jí)，通過 Agentic Coding 聯(lián)合訓(xùn)練優(yōu)化，TerminalBench 分?jǐn)?shù)大幅上漲，在 OpenRouter 平臺(tái)一度成為全球第二流行的 Coder 模型（IT之家注：僅次于 Claude Sonnet 4）。支持 256K 上下文，可一次性理解并修復(fù)整個(gè)項(xiàng)目級(jí)代碼庫(kù)，推理速度更快、Token 消耗更少、安全性更高，被開發(fā)者譽(yù)為“可一鍵修復(fù)復(fù)雜項(xiàng)目的負(fù)責(zé)任 AI”。

本次升級(jí)核心亮點(diǎn)：

Agentic Coding 聯(lián)合訓(xùn)練：與 Qwen Code 或 Claude Code 聯(lián)合優(yōu)化，在 CLI 應(yīng)用場(chǎng)景效果顯著提升；
項(xiàng)目級(jí)代碼理解：256K 上下文支持，可處理跨文件、多語(yǔ)言的復(fù)雜項(xiàng)目；
推理效率優(yōu)化：相比上代模型，推理速度更快，用更少 Token 達(dá)成更優(yōu)效果；
代碼安全性提升：強(qiáng)化漏洞檢測(cè)與惡意代碼過濾，邁向“負(fù)責(zé)任的 AI”；
多模態(tài)輸入支持：搭配 Qwen Code 系統(tǒng)，支持上傳截圖 + 自然語(yǔ)言指令生成代碼，全球領(lǐng)先。

通義萬(wàn)相 Wan2.5-Preview 音畫同步創(chuàng)意引擎首次原生支持音畫同步，全面提升視頻生成、圖像生成、圖像編輯三大核心能力，滿足廣告、電商、影視等商業(yè)級(jí)內(nèi)容生產(chǎn)需求。

視頻生成 —— 會(huì)“配音”的 10 秒電影：

原生音畫同步：視頻自帶人聲（多人）、ASMR、音效、音樂，支持中文、英文、小語(yǔ)種及方言，畫面與聲音嚴(yán)絲合縫；
10 秒長(zhǎng)視頻生成：時(shí)長(zhǎng)提升 1 倍，最高支持 1080P 24fps，動(dòng)態(tài)表現(xiàn)力與結(jié)構(gòu)穩(wěn)定性大幅提升，敘事能力躍升；
指令遵循提升：支持復(fù)雜連續(xù)變化指令、運(yùn)鏡控制、結(jié)構(gòu)化提示詞，精準(zhǔn)還原用戶意圖；
圖生視頻保 ID 優(yōu)化：人物、商品等視覺元素一致性顯著提升，商業(yè)廣告與虛擬偶像場(chǎng)景可用；
通用音頻驅(qū)動(dòng)：支持上傳自定義音頻作為參考，搭配提示詞或首幀圖生成視頻，實(shí)現(xiàn)“用我的聲音講你的故事”。

文生圖 —— 能“寫字”的設(shè)計(jì)大師：

美學(xué)質(zhì)感提升：真實(shí)光影、細(xì)節(jié)質(zhì)感表現(xiàn)力增強(qiáng)，擅長(zhǎng)不同藝術(shù)風(fēng)格與設(shè)計(jì)質(zhì)感還原；
穩(wěn)定文字生成：支持中英文、小語(yǔ)種、藝術(shù)字、長(zhǎng)文本、復(fù)雜構(gòu)圖精準(zhǔn)渲染，海報(bào) / LOGO 一次成型；
圖表直接生成：可輸出科學(xué)圖表、流程圖、數(shù)據(jù)圖、架構(gòu)圖、文字內(nèi)容表格等結(jié)構(gòu)化圖文；
指令遵循提升：復(fù)雜指令精細(xì)化理解，具備邏輯推理能力，可精準(zhǔn)還原現(xiàn)實(shí) IP 形象與場(chǎng)景細(xì)節(jié)。

圖像編輯 —— “改字不崩臉”的工業(yè)級(jí)修圖：

指令編輯：支持豐富編輯任務(wù)（換背景 / 改顏色 / 加元素 / 調(diào)風(fēng)格），指令理解精準(zhǔn)，無(wú)需專業(yè) PS 技能；
一致性保持：支持單圖 / 多圖參考?jí)|圖，人臉、商品、風(fēng)格等視覺元素 ID 強(qiáng)保持，編輯后“人還是那個(gè)人，包還是那個(gè)包”。

通義百聆是通義實(shí)驗(yàn)室推出的全新品牌，是一款企業(yè)級(jí)語(yǔ)音基座大模型，整合了領(lǐng)先的 Fun-ASR 語(yǔ)音識(shí)別大模型與 Fun-CosyVoice 語(yǔ)音合成大模型，致力于攻克復(fù)雜環(huán)境下的語(yǔ)音落地應(yīng)用難題。

Fun-ASR 語(yǔ)音識(shí)別大模型專治語(yǔ)音識(shí)別中的“幻覺輸出”“串語(yǔ)種”“熱詞失效”三大行業(yè)痛點(diǎn)。通過首創(chuàng)的 Context 增強(qiáng)架構(gòu)（CTC+LLM+RAG），幻覺率從 78.5% 降至 10.7%，基本根治串語(yǔ)種問題。

支持熱詞動(dòng)態(tài)注入與跨語(yǔ)種語(yǔ)音克隆，行業(yè)術(shù)語(yǔ) 100% 準(zhǔn)確召回。Fun-CosyVoice 語(yǔ)音合成大模型采用創(chuàng)新性的語(yǔ)音解耦訓(xùn)練方法，大幅提升音頻合成效果，并支持跨語(yǔ)種語(yǔ)音克隆。核心能力速覽：

幻覺率大幅下降：通過 Context 增強(qiáng)架構(gòu)，將 CTC 初篩結(jié)果作為 LLM 上下文，幻覺率從 78.5% 降至 10.7%，輸出更穩(wěn)定可靠；
徹底解決串語(yǔ)種問題：CTC 解碼文本輸入 LLM Prompt，極大緩解英文錄音輸出中文等“自動(dòng)翻譯”現(xiàn)象；
強(qiáng)定制化能力：引入 RAG 機(jī)制動(dòng)態(tài)注入術(shù)語(yǔ)庫(kù)，支持人名、品牌、行業(yè)黑話（如“ROI”“私域拉新”）精準(zhǔn)識(shí)別，5 分鐘完成配置；
跨語(yǔ)種語(yǔ)音克?。翰捎枚嚯A段訓(xùn)練方法，一個(gè)音色可說遍全球，聲音相似度行業(yè)領(lǐng)先；
行業(yè)場(chǎng)景全覆蓋：基于數(shù)千萬(wàn)小時(shí)真實(shí)音頻訓(xùn)練，覆蓋金融、教育、制造、互聯(lián)網(wǎng)、畜牧等 10+ 行業(yè)，深入產(chǎn)業(yè)一線。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

阿里云棲大會(huì)一口氣發(fā)布千問 3-VL、萬(wàn)相 2.5 等六大模型 + 通義百聆新品牌，覆蓋文本、視覺、語(yǔ)音、視頻、代碼、圖像全場(chǎng)景

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

阿里云棲大會(huì)一口氣發(fā)布千問 3-VL、萬(wàn)相 2.5 等六大模型 + 通義百聆新品牌，覆蓋文本、視覺、語(yǔ)音、視頻、代碼、圖像全場(chǎng)景

相關(guān)文章

阿里云棲大會(huì)一口氣發(fā)布千問 3-VL、萬(wàn)相 2.5 等六大模型 + 通義百聆新品牌，覆蓋文本、視覺、語(yǔ)音、視頻、代碼、圖像全場(chǎng)景