在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

階躍星辰開源 10B 多模態(tài)模型 Step3-VL-10B,性能媲美千億級(jí)大模型

2026/1/20 18:26:32 來源:IT之家 作者:遠(yuǎn)洋 責(zé)編:遠(yuǎn)洋

IT之家 1 月 20 日消息,今日,階躍星辰宣布多模態(tài)模型 Step3-VL-10B 開源。據(jù)介紹,僅用 10B 參數(shù)量,Step3-VL-10B 在視覺感知、邏輯推理、數(shù)學(xué)競賽以及通用對(duì)話等一系列基準(zhǔn)測試中均達(dá)到同規(guī)模 SOTA 水平。

IT之家附官方介紹原文如下:

性能超越 20 倍大模型,階躍星辰多模態(tài)“小核彈” Step3-VL-10B 開源!

僅用 10B 參數(shù)量,Step3-VL-10B 在視覺感知、邏輯推理、數(shù)學(xué)競賽以及通用對(duì)話等一系列基準(zhǔn)測試中均達(dá)到同規(guī)模 SOTA 水平,并且解決了參數(shù)量小和智能水平高難以兼優(yōu)的行業(yè)難題。

我們在多項(xiàng)關(guān)鍵評(píng)測中觀察到,Step3-VL-10B 媲美甚至超越規(guī)模大 10-20 倍開源模型(如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B)以及頂級(jí)閉源旗艦?zāi)P停ㄈ?Gemini 2.5 Pro、Seed-1.5-VL)。

基于這樣一個(gè)小而強(qiáng)底座,原本只能在云端運(yùn)行的復(fù)雜多模態(tài)推理(如 GUI 操作、復(fù)雜文檔解析、高精度計(jì)數(shù))能夠下沉到手機(jī)、電腦甚至工業(yè)嵌入式設(shè)備中。

Base 和 Thinking 模型同時(shí)開源,歡迎下載體驗(yàn)!

10B 參數(shù),200B 性能

Step3-VL-10B 具備三大核心亮點(diǎn):

  • 極致視覺感知標(biāo)桿:在同參數(shù)量級(jí)中展現(xiàn)出頂尖的識(shí)別與感知精度。通過引入 PaCoRe(并行協(xié)調(diào)推理) 機(jī)制,模型在復(fù)雜計(jì)數(shù)、高精度 OCR 及空間拓?fù)淅斫獾雀唠y度任務(wù)上的可靠性實(shí)現(xiàn)了質(zhì)的飛躍。

  • 深層邏輯推演與長程推理:得益于規(guī)?;瘡?qiáng)化學(xué)習(xí)(RL)的持續(xù)迭代,Step3-VL-10B 在 10B 規(guī)模上實(shí)現(xiàn)了跨任務(wù)推理能力的階躍。無論是競賽級(jí)數(shù)學(xué)難題、真實(shí)編程環(huán)境還是視覺邏輯謎題,模型均能通過嚴(yán)密的多步思維鏈推導(dǎo)出最終答案。

  • 強(qiáng)大端側(cè) Agent 交互:基于海量 GUI(圖形用戶界面)專用預(yù)訓(xùn)練數(shù)據(jù),模型能夠精準(zhǔn)識(shí)別并操作復(fù)雜界面,成為端側(cè) Agent 的核心引擎。

Step3-VL-10B 提供 SeRe(順序推理)和 PaCoRe(并行協(xié)調(diào)推理)兩種范式,在 STEM 推理、識(shí)別、OCR & 文檔、GUI Grounding、空間理解、代碼等核心維度,都取得了千億級(jí)別模型的優(yōu)秀分?jǐn)?shù),PaCoRe 范式表現(xiàn)更優(yōu)。

1、STEM /多模態(tài)推理

STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))與多模態(tài)推理(Multimodal Reasoning)是衡量模型“深度智能”的核心維度。

Step3-VL-10B 在 MMMU、MathVision 中超越 GLM-4.6V、Qwen3-VL 等模型。

2、競賽數(shù)學(xué)

在數(shù)學(xué)維度上,Step3-VL-10B 表現(xiàn)尤其突出。在 AIME 25/24 等數(shù)學(xué)競賽測試題上以幾乎滿分的成績達(dá)到世界第一梯隊(duì)水平。

這意味著 Step3-VL-10B 已具備了頂尖人類數(shù)學(xué)競賽選手的思維能力,在邏輯嚴(yán)密性上甚至優(yōu)于許多千億級(jí)模型。

3、2D/3D 空間推理

Step3-VL-10B 在多個(gè)空間推理基準(zhǔn)中都表現(xiàn)出優(yōu)異水平,尤其是在需要精細(xì)感知與復(fù)雜邏輯結(jié)合的 BLINK、CVBench、OmniSpatial 及 ViewSpatial 等測試中,其性能顯著超越了同規(guī)模模型。

4、代碼

在真實(shí)、動(dòng)態(tài)編程環(huán)境下,Step3-VL-10B 超越諸多世界一流多模態(tài)模型。

真實(shí)案例

在真實(shí)使用場景中,Step3-VL-10B 的多模推理能力覆蓋 GUI 感知、視覺識(shí)別和推理等。

  • 案例一:莫爾斯推理

  • 案例二:GUI 感知

  • 案例三:圖推理

為什么能做到?三項(xiàng)關(guān)鍵設(shè)計(jì)

能夠達(dá)到以上性能,得益于 Step3-VL-10B 在三方面獨(dú)特設(shè)計(jì):

1.全參數(shù)端到端多模態(tài)聯(lián)合預(yù)訓(xùn)練:摒棄了傳統(tǒng)分階段凍結(jié)模塊的訓(xùn)練范式,直接在 1.2T 高質(zhì)量多模態(tài)數(shù)據(jù)集上進(jìn)行全參數(shù)聯(lián)合訓(xùn)練。這種方式實(shí)現(xiàn)了視覺特征與語言邏輯在底層語義空間的深度對(duì)齊,為模型構(gòu)建了極致的感知能力與復(fù)雜的跨模態(tài)推理基石。

2.大規(guī)模多模態(tài)強(qiáng)化學(xué)習(xí)(RL)演進(jìn):率先將大規(guī)模強(qiáng)化學(xué)習(xí)引入多模態(tài)領(lǐng)域,歷經(jīng)超過 1,400 次迭代優(yōu)化。模型在視覺識(shí)別、數(shù)理邏輯推理及通用對(duì)話等維度的能力均實(shí)現(xiàn)質(zhì)的飛躍,且實(shí)驗(yàn)數(shù)據(jù)表明,模型性能仍處于上升通道,尚未觸及飽和邊界。

3.并行協(xié)調(diào)推理機(jī)制(PaCoRe):創(chuàng)新性地引入 PaCoRe 機(jī)制,支持推理階段的動(dòng)態(tài)算力擴(kuò)展。通過并行探索多個(gè)感知假設(shè)并進(jìn)行多維證據(jù)聚合,該機(jī)制顯著提升了模型在競賽級(jí)數(shù)學(xué)、復(fù)雜 OCR 識(shí)別、精準(zhǔn)物體計(jì)數(shù)及空間拓?fù)渫评碇械臏?zhǔn)確度。

得益于“三位一體”架構(gòu),Step3-VL-10B 證明智能水平并不完全取決于參數(shù)規(guī)模。

依托更高質(zhì)量、更有針對(duì)性的數(shù)據(jù)構(gòu)建,以及系統(tǒng)化的后訓(xùn)練與強(qiáng)化學(xué)習(xí)策略,10B 級(jí)模型同樣有能力在多項(xiàng)基準(zhǔn)測試中與 10–20 倍體量的模型正面競爭,甚至實(shí)現(xiàn)反超

這也意味著:世界一流的多模態(tài)能力有望以更低成本、更少算力獲得;與此同時(shí),過去主要集中在云端超級(jí)智能將逐步向端側(cè)下沉,推動(dòng)終端走向“主動(dòng)理解與可執(zhí)行交互”,從而重塑人機(jī)交互體驗(yàn)。

目前,我們已開源 Step3-VL-10B(包括 Base 模型和 Thinking 模型),歡迎大家與我們討論交流,也歡迎開源社區(qū)來微調(diào)我們的模型,共同推動(dòng)小模型實(shí)現(xiàn)智能躍遷!

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:階躍星辰,多模態(tài)模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知