IT之家 10 月 4 日消息,阿里云通義千問今日宣布開源 Qwen3-VL-30B-A3B-Instruct 與 Thinking 模型,并同步推出 FP8 版本以及超大規(guī)模模型 Qwen3-VL-235B-A22B 的 FP8 版本。

官方表示,Qwen3-VL-30B-A3B-Instruct 與 Thinking 體積更小,性能依舊強(qiáng)勁,更實(shí)現(xiàn)集 Qwen3-VL 全部能力于一身。僅需 30 億激活參數(shù),即可在 STEM、視覺問答(VQA)、光學(xué)字符識(shí)別(OCR)、視頻理解、智能體(Agent)任務(wù)等多個(gè)領(lǐng)域媲美 GPT-5-Mini 和 Claude4-Sonnet,甚至表現(xiàn)更優(yōu)。



該模型可在魔搭社區(qū)、Hugging Face 免費(fèi)下載,并已同步上線 Qwen Chat。
以 Qwen3-VL-30B-A3B-Instruct 為例,官方介紹大意如下:
通義千問 3-VL—— 通義千問系列迄今為止最強(qiáng)大的視覺語言模型。
這一代產(chǎn)品在各個(gè)方面都進(jìn)行了全面升級(jí):更卓越的文本理解與生成能力、更深入的視覺感知與推理能力、更長(zhǎng)的上下文長(zhǎng)度、更強(qiáng)的空間和視頻動(dòng)態(tài)理解能力,以及更強(qiáng)大的 Agent 交互能力。
提供從邊緣到云端可擴(kuò)展的密集和 MoE 架構(gòu),以及用于靈活、按需部署的 Instruct 和推理增強(qiáng)型 Thinking 版本。
主要增強(qiáng)功能:
視覺代理:操作 PC / 移動(dòng)端圖形用戶界面 — 識(shí)別元素、理解功能、調(diào)用工具、完成任務(wù)。
視覺編碼增強(qiáng):從圖像 / 視頻生成 Draw.io/ HTML / CSS / JS。
高級(jí)空間感知:判斷對(duì)象位置、視角和遮擋;提供更強(qiáng)的 2D 基礎(chǔ),并為空間推理和具身人工智能實(shí)現(xiàn) 3D 基礎(chǔ)。
長(zhǎng)上下文與視頻理解:原生 256K 上下文,可擴(kuò)展至 1M;能夠處理書籍和數(shù)小時(shí)長(zhǎng)的視頻,具有完整回憶和秒級(jí)索引功能。
增強(qiáng)的多模態(tài)推理:在 STEM / 數(shù)學(xué)領(lǐng)域表現(xiàn)出色 —— 能夠進(jìn)行因果分析和提供基于邏輯與證據(jù)的答案。
升級(jí)的視覺識(shí)別:通過更廣泛、更高質(zhì)量的預(yù)訓(xùn)練,能夠 " 識(shí)別一切 "—— 名人、動(dòng)漫、產(chǎn)品、地標(biāo)、動(dòng)植物等。
擴(kuò)展的 OCR 功能:支持 32 種語言(此前為 19 種);在低光、模糊和傾斜情況下表現(xiàn)穩(wěn)?。桓玫靥幚砗币?/ 古文字和專業(yè)術(shù)語;改進(jìn)了長(zhǎng)文檔結(jié)構(gòu)解析。
與純 LLMs 相當(dāng)?shù)奈谋纠斫饽芰Γ簾o縫的文本-視覺融合,實(shí)現(xiàn)無損、統(tǒng)一的理解。
IT之家附鏈接:
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。