在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

阿里云棲大會(huì)一口氣發(fā)布千問 3-VL、萬(wàn)相 2.5 等六大模型 + 通義百聆新品牌,覆蓋文本、視覺、語(yǔ)音、視頻、代碼、圖像全場(chǎng)景

2025/9/24 13:58:38 來(lái)源:IT之家 作者:問舟 責(zé)編:問舟
感謝IT之家網(wǎng)友 軟媒用戶1369491、西窗 的線索投遞!

IT之家 9 月 24 日消息,在今日的 2025 云棲大會(huì)上,阿里集團(tuán)董事兼 CEO 吳泳銘表示,積極推進(jìn) 3800 億 AI 基礎(chǔ)設(shè)施建設(shè),并計(jì)劃追加更大投入。會(huì)上,阿里推出了 6 款新模型 + 1 個(gè)全新品牌:

  • Qwen MAX:萬(wàn)億參數(shù)大模型,Coding 與工具調(diào)用能力登頂國(guó)際榜單;

  • Qwen3-Omni:新一代原生全模態(tài)大模型,真正實(shí)現(xiàn)“全模態(tài)不降智”;

  • Qwen3-VL:Agent 和 Coding 能力全面提升,真正“看懂、理解并響應(yīng)世界”;

  • Qwen-Image:再升級(jí)!真正實(shí)現(xiàn)“改字不崩臉、換裝不走樣”;

  • Qwen3-Coder:256K 上下文修復(fù)項(xiàng)目,TerminalBench 分?jǐn)?shù)大幅提升;

  • Wan2.5-Preview:音畫同步視頻生成,圖像支持科學(xué)圖表與藝術(shù)字;

  • 通義百聆:企業(yè)級(jí)語(yǔ)音基座大模型,攻克企業(yè)落地語(yǔ)音模型的“最后一公里”;

其中,通義千問 Qwen-MAX、Qwen3-Omni、 Qwen-Image-Edit-2509 此前已有報(bào)道。

至于其余模型,Qwen3-VL 是一款真正實(shí)現(xiàn)“看懂世界、理解事件、做出行動(dòng)”的視覺理解模型,支持 2 小時(shí)視頻精確定位(如“第 15 分鐘穿紅衣者做了什么”),OCR 語(yǔ)言從 19 種擴(kuò)展至 32 種,生僻字、古籍、傾斜文本識(shí)別率顯著提升;原生支持 256K 上下文,可擴(kuò)展至 100 萬(wàn) token,適配超長(zhǎng)視頻與文檔分析。

本次發(fā)布重點(diǎn)強(qiáng)化以下能力:

  • 視覺智能體:可操作電腦和手機(jī)界面,識(shí)別 GUI 元素、理解按鈕功能、調(diào)用工具并執(zhí)行任務(wù),在 OS World 等評(píng)測(cè)中達(dá)到世界頂尖水平;

  • 可視化編程:看到 UI 設(shè)計(jì)圖或流程圖,可直接生成 HTML / CSS / JS 代碼或 Draw.io 圖表,大幅提升產(chǎn)品與開發(fā)協(xié)作效率;

  • 空間感知與 3D Grounding:支持判斷物體方位、視角變化與遮擋關(guān)系,為具身智能、機(jī)器人導(dǎo)航、AR / VR 等場(chǎng)景提供底層支持;

  • 超長(zhǎng)視頻理解與行為分析:不僅能理解 2 小時(shí)視頻內(nèi)容,還能精準(zhǔn)回答“第 15 分鐘穿紅衣者做了什么”“球從哪個(gè)方向飛入畫面”等時(shí)序與行為問題;

  • Thinking 版本強(qiáng)化 STEM 推理:在 MathVista、MathVision、CharXiv 等評(píng)測(cè)中達(dá) SOTA 水平,可精準(zhǔn)解析科學(xué)圖表、公式與文獻(xiàn)圖像;

  • 視覺感知全面升級(jí):優(yōu)化預(yù)訓(xùn)練數(shù)據(jù),支持“萬(wàn)物識(shí)別”—— 從名人、動(dòng)漫角色、商品、地標(biāo)到動(dòng)植物,覆蓋生活與專業(yè)場(chǎng)景;

  • 多語(yǔ)言 OCR 與復(fù)雜場(chǎng)景支持:語(yǔ)言擴(kuò)展至 32 種,復(fù)雜光線、模糊、傾斜文本識(shí)別更穩(wěn)定,生僻字、古籍字、專業(yè)術(shù)語(yǔ)召回率顯著提升;

  • 安防感知與風(fēng)險(xiǎn)預(yù)警:在家庭、商場(chǎng)、街區(qū)、道路等真實(shí)場(chǎng)景中,對(duì)風(fēng)險(xiǎn)人物與事件的檢測(cè)準(zhǔn)確率達(dá)到行業(yè)領(lǐng)先水平;

  • 長(zhǎng)上下文原生支持:256K 起步,可擴(kuò)展至 100 萬(wàn) token,支持整本教材、數(shù)小時(shí)會(huì)議錄像的全程記憶與精準(zhǔn)檢索。

Qwen-Image 是開源圖片編輯專家,本次也迎來(lái)全新升級(jí),新版本支持多圖參考編輯,強(qiáng)化人臉、商品、文字 ID 一致性,并原生集成 ControlNet,實(shí)現(xiàn)“改字不崩臉、換裝不走樣”的工業(yè)級(jí)穩(wěn)定性,滿足電商、設(shè)計(jì)、廣告等高要求場(chǎng)景。

本次升級(jí)核心亮點(diǎn):

  • 多圖編輯支持:對(duì)于多圖輸入,Qwen-Image-Edit-2509 基于 Qwen-Image 基模,不僅能夠處理各種單圖編輯場(chǎng)景,而且全新支持了多種多圖編輯場(chǎng)景,提供“人物 + 人物”,“人物 + 商品”,“人物 + 場(chǎng)景”等多種新玩法。

  • 單圖編輯一致性增強(qiáng):對(duì)于單圖編輯場(chǎng)景,Qwen-Image-Edit-2509 相比之前,顯著提高了各個(gè)維度的一致性,主要體現(xiàn)在以下方面:

    • 人物編輯一致性增強(qiáng):增強(qiáng)人物 ID 保持,支持各種風(fēng)格肖像、姿勢(shì)變換;

    • 商品編輯一致性增強(qiáng):增強(qiáng)商品 ID 保持,支持各種商品海報(bào)編輯;

    • 文字編輯一致性增強(qiáng):除了支持文字內(nèi)容修改外,還支持多種文字字體、色彩以及材質(zhì)編輯;

  • 原生支持 ControlNet:支持包括深度圖、邊緣圖、關(guān)鍵點(diǎn)圖等引導(dǎo)信息。

Qwen3-Coder 上下文代碼專家本次迎來(lái)能力升級(jí),通過 Agentic Coding 聯(lián)合訓(xùn)練優(yōu)化,TerminalBench 分?jǐn)?shù)大幅上漲,在 OpenRouter 平臺(tái)一度成為全球第二流行的 Coder 模型(IT之家注:僅次于 Claude Sonnet 4)。支持 256K 上下文,可一次性理解并修復(fù)整個(gè)項(xiàng)目級(jí)代碼庫(kù),推理速度更快、Token 消耗更少、安全性更高,被開發(fā)者譽(yù)為“可一鍵修復(fù)復(fù)雜項(xiàng)目的負(fù)責(zé)任 AI”。

本次升級(jí)核心亮點(diǎn):

  • Agentic Coding 聯(lián)合訓(xùn)練:與 Qwen Code 或 Claude Code 聯(lián)合優(yōu)化,在 CLI 應(yīng)用場(chǎng)景效果顯著提升;

  • 項(xiàng)目級(jí)代碼理解:256K 上下文支持,可處理跨文件、多語(yǔ)言的復(fù)雜項(xiàng)目;

  • 推理效率優(yōu)化:相比上代模型,推理速度更快,用更少 Token 達(dá)成更優(yōu)效果;

  • 代碼安全性提升:強(qiáng)化漏洞檢測(cè)與惡意代碼過濾,邁向“負(fù)責(zé)任的 AI”;

  • 多模態(tài)輸入支持:搭配 Qwen Code 系統(tǒng),支持上傳截圖 + 自然語(yǔ)言指令生成代碼,全球領(lǐng)先。

通義萬(wàn)相 Wan2.5-Preview 音畫同步創(chuàng)意引擎首次原生支持音畫同步,全面提升視頻生成、圖像生成、圖像編輯三大核心能力,滿足廣告、電商、影視等商業(yè)級(jí)內(nèi)容生產(chǎn)需求。

視頻生成 —— 會(huì)“配音”的 10 秒電影:

  • 原生音畫同步:視頻自帶人聲(多人)、ASMR、音效、音樂,支持中文、英文、小語(yǔ)種及方言,畫面與聲音嚴(yán)絲合縫;

  • 10 秒長(zhǎng)視頻生成:時(shí)長(zhǎng)提升 1 倍,最高支持 1080P 24fps,動(dòng)態(tài)表現(xiàn)力與結(jié)構(gòu)穩(wěn)定性大幅提升,敘事能力躍升;

  • 指令遵循提升:支持復(fù)雜連續(xù)變化指令、運(yùn)鏡控制、結(jié)構(gòu)化提示詞,精準(zhǔn)還原用戶意圖;

  • 圖生視頻保 ID 優(yōu)化:人物、商品等視覺元素一致性顯著提升,商業(yè)廣告與虛擬偶像場(chǎng)景可用;

  • 通用音頻驅(qū)動(dòng):支持上傳自定義音頻作為參考,搭配提示詞或首幀圖生成視頻,實(shí)現(xiàn)“用我的聲音講你的故事”。

文生圖 —— 能“寫字”的設(shè)計(jì)大師:

  • 美學(xué)質(zhì)感提升:真實(shí)光影、細(xì)節(jié)質(zhì)感表現(xiàn)力增強(qiáng),擅長(zhǎng)不同藝術(shù)風(fēng)格與設(shè)計(jì)質(zhì)感還原;

  • 穩(wěn)定文字生成:支持中英文、小語(yǔ)種、藝術(shù)字、長(zhǎng)文本、復(fù)雜構(gòu)圖精準(zhǔn)渲染,海報(bào) / LOGO 一次成型;

  • 圖表直接生成:可輸出科學(xué)圖表、流程圖、數(shù)據(jù)圖、架構(gòu)圖、文字內(nèi)容表格等結(jié)構(gòu)化圖文;

  • 指令遵循提升:復(fù)雜指令精細(xì)化理解,具備邏輯推理能力,可精準(zhǔn)還原現(xiàn)實(shí) IP 形象與場(chǎng)景細(xì)節(jié)。

圖像編輯 —— “改字不崩臉”的工業(yè)級(jí)修圖:

  • 指令編輯:支持豐富編輯任務(wù)(換背景 / 改顏色 / 加元素 / 調(diào)風(fēng)格),指令理解精準(zhǔn),無(wú)需專業(yè) PS 技能;

  • 一致性保持:支持單圖 / 多圖參考?jí)|圖,人臉、商品、風(fēng)格等視覺元素 ID 強(qiáng)保持,編輯后“人還是那個(gè)人,包還是那個(gè)包”。

通義百聆是通義實(shí)驗(yàn)室推出的全新品牌,是一款企業(yè)級(jí)語(yǔ)音基座大模型,整合了領(lǐng)先的 Fun-ASR 語(yǔ)音識(shí)別大模型與 Fun-CosyVoice 語(yǔ)音合成大模型,致力于攻克復(fù)雜環(huán)境下的語(yǔ)音落地應(yīng)用難題。

Fun-ASR 語(yǔ)音識(shí)別大模型專治語(yǔ)音識(shí)別中的“幻覺輸出”“串語(yǔ)種”“熱詞失效”三大行業(yè)痛點(diǎn)。通過首創(chuàng)的 Context 增強(qiáng)架構(gòu)(CTC+LLM+RAG),幻覺率從 78.5% 降至 10.7%,基本根治串語(yǔ)種問題。

支持熱詞動(dòng)態(tài)注入與跨語(yǔ)種語(yǔ)音克隆,行業(yè)術(shù)語(yǔ) 100% 準(zhǔn)確召回。Fun-CosyVoice 語(yǔ)音合成大模型采用創(chuàng)新性的語(yǔ)音解耦訓(xùn)練方法,大幅提升音頻合成效果,并支持跨語(yǔ)種語(yǔ)音克隆。核心能力速覽:

  • 幻覺率大幅下降:通過 Context 增強(qiáng)架構(gòu),將 CTC 初篩結(jié)果作為 LLM 上下文,幻覺率從 78.5% 降至 10.7%,輸出更穩(wěn)定可靠;

  • 徹底解決串語(yǔ)種問題:CTC 解碼文本輸入 LLM Prompt,極大緩解英文錄音輸出中文等“自動(dòng)翻譯”現(xiàn)象;

  • 強(qiáng)定制化能力:引入 RAG 機(jī)制動(dòng)態(tài)注入術(shù)語(yǔ)庫(kù),支持人名、品牌、行業(yè)黑話(如“ROI”“私域拉新”)精準(zhǔn)識(shí)別,5 分鐘完成配置;

  • 跨語(yǔ)種語(yǔ)音克?。翰捎枚嚯A段訓(xùn)練方法,一個(gè)音色可說遍全球,聲音相似度行業(yè)領(lǐng)先;

  • 行業(yè)場(chǎng)景全覆蓋:基于數(shù)千萬(wàn)小時(shí)真實(shí)音頻訓(xùn)練,覆蓋金融、教育、制造、互聯(lián)網(wǎng)、畜牧等 10+ 行業(yè),深入產(chǎn)業(yè)一線。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:阿里云,通義千問

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知