阿里云通義千問開源 Qwen3-VL-30B-A3B 模型：智能體任務(wù)等領(lǐng)域媲美 GPT-5-Mini

2025/10/4 12:52:21 來源：IT之家作者：清源責(zé)編：清源

評(píng)論：

感謝IT之家網(wǎng)友軟媒用戶389454 的線索投遞！

IT之家 10 月 4 日消息，阿里云通義千問今日宣布開源 Qwen3-VL-30B-A3B-Instruct 與 Thinking 模型，并同步推出 FP8 版本以及超大規(guī)模模型 Qwen3-VL-235B-A22B 的 FP8 版本。

官方表示，Qwen3-VL-30B-A3B-Instruct 與 Thinking 體積更小，性能依舊強(qiáng)勁，更實(shí)現(xiàn)集 Qwen3-VL 全部能力于一身。僅需 30 億激活參數(shù)，即可在 STEM、視覺問答（VQA）、光學(xué)字符識(shí)別（OCR）、視頻理解、智能體（Agent）任務(wù)等多個(gè)領(lǐng)域媲美 GPT-5-Mini 和 Claude4-Sonnet，甚至表現(xiàn)更優(yōu)。

阿里云通義千問開源 Qwen3-VL-30B-A3B 模型：智能體任務(wù)等領(lǐng)域媲美 GPT-5-Mini

該模型可在魔搭社區(qū)、Hugging Face 免費(fèi)下載，并已同步上線 Qwen Chat。

以 Qwen3-VL-30B-A3B-Instruct 為例，官方介紹大意如下：

通義千問 3-VL—— 通義千問系列迄今為止最強(qiáng)大的視覺語言模型。
這一代產(chǎn)品在各個(gè)方面都進(jìn)行了全面升級(jí)：更卓越的文本理解與生成能力、更深入的視覺感知與推理能力、更長(zhǎng)的上下文長(zhǎng)度、更強(qiáng)的空間和視頻動(dòng)態(tài)理解能力，以及更強(qiáng)大的 Agent 交互能力。
提供從邊緣到云端可擴(kuò)展的密集和 MoE 架構(gòu)，以及用于靈活、按需部署的 Instruct 和推理增強(qiáng)型 Thinking 版本。
主要增強(qiáng)功能：
視覺代理：操作 PC / 移動(dòng)端圖形用戶界面 — 識(shí)別元素、理解功能、調(diào)用工具、完成任務(wù)。
視覺編碼增強(qiáng)：從圖像 / 視頻生成 Draw.io/ HTML / CSS / JS。
高級(jí)空間感知：判斷對(duì)象位置、視角和遮擋；提供更強(qiáng)的 2D 基礎(chǔ)，并為空間推理和具身人工智能實(shí)現(xiàn) 3D 基礎(chǔ)。
長(zhǎng)上下文與視頻理解：原生 256K 上下文，可擴(kuò)展至 1M；能夠處理書籍和數(shù)小時(shí)長(zhǎng)的視頻，具有完整回憶和秒級(jí)索引功能。
增強(qiáng)的多模態(tài)推理：在 STEM / 數(shù)學(xué)領(lǐng)域表現(xiàn)出色 —— 能夠進(jìn)行因果分析和提供基于邏輯與證據(jù)的答案。
升級(jí)的視覺識(shí)別：通過更廣泛、更高質(zhì)量的預(yù)訓(xùn)練，能夠 " 識(shí)別一切 "—— 名人、動(dòng)漫、產(chǎn)品、地標(biāo)、動(dòng)植物等。
擴(kuò)展的 OCR 功能：支持 32 種語言（此前為 19 種）；在低光、模糊和傾斜情況下表現(xiàn)穩(wěn)?。桓玫靥幚砗币?/ 古文字和專業(yè)術(shù)語；改進(jìn)了長(zhǎng)文檔結(jié)構(gòu)解析。
與純 LLMs 相當(dāng)?shù)奈谋纠斫饽芰Γ簾o縫的文本-視覺融合，實(shí)現(xiàn)無損、統(tǒng)一的理解。

IT之家附鏈接：

魔搭社區(qū)：Qwen3-VL
Hugging Face：Qwen3-VL

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

阿里云通義千問開源 Qwen3-VL-30B-A3B 模型：智能體任務(wù)等領(lǐng)域媲美 GPT-5-Mini

相關(guān)文章