階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

2026/1/20 18:26:32 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

IT之家 1 月 20 日消息，今日，階躍星辰宣布多模態(tài)模型 Step3-VL-10B 開源。據(jù)介紹，僅用 10B 參數(shù)量，Step3-VL-10B 在視覺感知、邏輯推理、數(shù)學(xué)競賽以及通用對(duì)話等一系列基準(zhǔn)測試中均達(dá)到同規(guī)模 SOTA 水平。

IT之家附官方介紹原文如下：

性能超越 20 倍大模型，階躍星辰多模態(tài)“小核彈” Step3-VL-10B 開源！

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

僅用 10B 參數(shù)量，Step3-VL-10B 在視覺感知、邏輯推理、數(shù)學(xué)競賽以及通用對(duì)話等一系列基準(zhǔn)測試中均達(dá)到同規(guī)模 SOTA 水平，并且解決了參數(shù)量小和智能水平高難以兼優(yōu)的行業(yè)難題。

我們在多項(xiàng)關(guān)鍵評(píng)測中觀察到，Step3-VL-10B 媲美甚至超越規(guī)模大 10-20 倍開源模型（如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B）以及頂級(jí)閉源旗艦?zāi)Ｐ停ㄈ?Gemini 2.5 Pro、Seed-1.5-VL）。

基于這樣一個(gè)小而強(qiáng)底座，原本只能在云端運(yùn)行的復(fù)雜多模態(tài)推理（如 GUI 操作、復(fù)雜文檔解析、高精度計(jì)數(shù)）能夠下沉到手機(jī)、電腦甚至工業(yè)嵌入式設(shè)備中。

Base 和 Thinking 模型同時(shí)開源，歡迎下載體驗(yàn)！

項(xiàng)目主頁：https://stepfun-ai.github.io/Step3-VL-10B/
論文鏈接：https://arxiv.org/abs/2601.09668
HuggingFace：https://huggingface.co/collections/stepfun-ai/step3-vl-10b
ModelScope：https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

10B 參數(shù)，200B 性能

Step3-VL-10B 具備三大核心亮點(diǎn)：

極致視覺感知標(biāo)桿：在同參數(shù)量級(jí)中展現(xiàn)出頂尖的識(shí)別與感知精度。通過引入 PaCoRe（并行協(xié)調(diào)推理） 機(jī)制，模型在復(fù)雜計(jì)數(shù)、高精度 OCR 及空間拓?fù)淅斫獾雀唠y度任務(wù)上的可靠性實(shí)現(xiàn)了質(zhì)的飛躍。
深層邏輯推演與長程推理：得益于規(guī)?；瘡?qiáng)化學(xué)習(xí)（RL）的持續(xù)迭代，Step3-VL-10B 在 10B 規(guī)模上實(shí)現(xiàn)了跨任務(wù)推理能力的階躍。無論是競賽級(jí)數(shù)學(xué)難題、真實(shí)編程環(huán)境還是視覺邏輯謎題，模型均能通過嚴(yán)密的多步思維鏈推導(dǎo)出最終答案。
強(qiáng)大端側(cè) Agent 交互：基于海量 GUI（圖形用戶界面）專用預(yù)訓(xùn)練數(shù)據(jù)，模型能夠精準(zhǔn)識(shí)別并操作復(fù)雜界面，成為端側(cè) Agent 的核心引擎。

Step3-VL-10B 提供 SeRe（順序推理）和 PaCoRe（并行協(xié)調(diào)推理）兩種范式，在 STEM 推理、識(shí)別、OCR & 文檔、GUI Grounding、空間理解、代碼等核心維度，都取得了千億級(jí)別模型的優(yōu)秀分?jǐn)?shù)，PaCoRe 范式表現(xiàn)更優(yōu)。

1、STEM /多模態(tài)推理

STEM（科學(xué)、技術(shù)、工程、數(shù)學(xué)）與多模態(tài)推理（Multimodal Reasoning）是衡量模型“深度智能”的核心維度。

Step3-VL-10B 在 MMMU、MathVision 中超越 GLM-4.6V、Qwen3-VL 等模型。

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

2、競賽數(shù)學(xué)

在數(shù)學(xué)維度上，Step3-VL-10B 表現(xiàn)尤其突出。在 AIME 25/24 等數(shù)學(xué)競賽測試題上以幾乎滿分的成績達(dá)到世界第一梯隊(duì)水平。

這意味著 Step3-VL-10B 已具備了頂尖人類數(shù)學(xué)競賽選手的思維能力，在邏輯嚴(yán)密性上甚至優(yōu)于許多千億級(jí)模型。

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

3、2D/3D 空間推理

Step3-VL-10B 在多個(gè)空間推理基準(zhǔn)中都表現(xiàn)出優(yōu)異水平，尤其是在需要精細(xì)感知與復(fù)雜邏輯結(jié)合的 BLINK、CVBench、OmniSpatial 及 ViewSpatial 等測試中，其性能顯著超越了同規(guī)模模型。

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

4、代碼

在真實(shí)、動(dòng)態(tài)編程環(huán)境下，Step3-VL-10B 超越諸多世界一流多模態(tài)模型。

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

真實(shí)案例

在真實(shí)使用場景中，Step3-VL-10B 的多模推理能力覆蓋 GUI 感知、視覺識(shí)別和推理等。

案例一：莫爾斯推理

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

案例二：GUI 感知

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

案例三：圖推理

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

為什么能做到？三項(xiàng)關(guān)鍵設(shè)計(jì)

能夠達(dá)到以上性能，得益于 Step3-VL-10B 在三方面獨(dú)特設(shè)計(jì)：

1.全參數(shù)端到端多模態(tài)聯(lián)合預(yù)訓(xùn)練：摒棄了傳統(tǒng)分階段凍結(jié)模塊的訓(xùn)練范式，直接在 1.2T 高質(zhì)量多模態(tài)數(shù)據(jù)集上進(jìn)行全參數(shù)聯(lián)合訓(xùn)練。這種方式實(shí)現(xiàn)了視覺特征與語言邏輯在底層語義空間的深度對(duì)齊，為模型構(gòu)建了極致的感知能力與復(fù)雜的跨模態(tài)推理基石。

2.大規(guī)模多模態(tài)強(qiáng)化學(xué)習(xí)（RL）演進(jìn)：率先將大規(guī)模強(qiáng)化學(xué)習(xí)引入多模態(tài)領(lǐng)域，歷經(jīng)超過 1,400 次迭代優(yōu)化。模型在視覺識(shí)別、數(shù)理邏輯推理及通用對(duì)話等維度的能力均實(shí)現(xiàn)質(zhì)的飛躍，且實(shí)驗(yàn)數(shù)據(jù)表明，模型性能仍處于上升通道，尚未觸及飽和邊界。

3.并行協(xié)調(diào)推理機(jī)制（PaCoRe）：創(chuàng)新性地引入 PaCoRe 機(jī)制，支持推理階段的動(dòng)態(tài)算力擴(kuò)展。通過并行探索多個(gè)感知假設(shè)并進(jìn)行多維證據(jù)聚合，該機(jī)制顯著提升了模型在競賽級(jí)數(shù)學(xué)、復(fù)雜 OCR 識(shí)別、精準(zhǔn)物體計(jì)數(shù)及空間拓?fù)渫评碇械臏?zhǔn)確度。

得益于“三位一體”架構(gòu)，Step3-VL-10B 證明智能水平并不完全取決于參數(shù)規(guī)模。

依托更高質(zhì)量、更有針對(duì)性的數(shù)據(jù)構(gòu)建，以及系統(tǒng)化的后訓(xùn)練與強(qiáng)化學(xué)習(xí)策略，10B 級(jí)模型同樣有能力在多項(xiàng)基準(zhǔn)測試中與 10–20 倍體量的模型正面競爭，甚至實(shí)現(xiàn)反超。

這也意味著：世界一流的多模態(tài)能力有望以更低成本、更少算力獲得；與此同時(shí)，過去主要集中在云端超級(jí)智能將逐步向端側(cè)下沉，推動(dòng)終端走向“主動(dòng)理解與可執(zhí)行交互”，從而重塑人機(jī)交互體驗(yàn)。

目前，我們已開源 Step3-VL-10B（包括 Base 模型和 Thinking 模型），歡迎大家與我們討論交流，也歡迎開源社區(qū)來微調(diào)我們的模型，共同推動(dòng)小模型實(shí)現(xiàn)智能躍遷！

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

10B 參數(shù)，200B 性能

真實(shí)案例

為什么能做到？三項(xiàng)關(guān)鍵設(shè)計(jì)

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

10B 參數(shù)，200B 性能

真實(shí)案例

為什么能做到？三項(xiàng)關(guān)鍵設(shè)計(jì)

相關(guān)文章

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B，性能媲美千億級(jí)大模型

10B 參數(shù)，200B 性能

為什么能做到？三項(xiàng)關(guān)鍵設(shè)計(jì)