開啟多模態(tài)思考新時(shí)代：昆侖萬(wàn)維開源 R1V 視覺思維鏈推理模型

2025/3/18 17:04:46 來源：IT之家作者：歸瀧（實(shí)習(xí)） 責(zé)編：歸瀧

評(píng)論：

IT之家 3 月 18 日消息，昆侖萬(wàn)維今日正式開源首款工業(yè)界多模態(tài)思維鏈推理模型 Skywork R1V，成為中國(guó)第一個(gè)開源「多模態(tài)推理模型」的企業(yè)，即日起開源模型權(quán)重和技術(shù)報(bào)告。

模型權(quán)重下載

Hugging Face：https://huggingface.co/Skywork/Skywork-R1V-38B
GitHub：https://github.com/SkyworkAI/Skywork-R1V

詳細(xì)技術(shù)報(bào)告

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf

據(jù)介紹，視覺推理模型是一類能夠解決需要思維鏈（Chain-of-Thought）的視覺任務(wù)的模型，通過對(duì)視覺信息進(jìn)行多步邏輯推理與分析，逐步推導(dǎo)出最終結(jié)果。這種模型關(guān)注圖像內(nèi)容的識(shí)別與理解，同時(shí)強(qiáng)調(diào)通過層層遞進(jìn)的推理路徑，實(shí)現(xiàn)復(fù)雜視覺問題的精準(zhǔn)求解，例如視覺邏輯推理、視覺數(shù)學(xué)問題、圖像中的科學(xué)現(xiàn)象分析、醫(yī)學(xué)影像的診斷推理等。

在 Reasoning 推理能力方面，Skywork R1V 實(shí)現(xiàn)了模型的頂尖邏輯推理與數(shù)學(xué)分析能力，在權(quán)威的 MATH500 和 AIME 基準(zhǔn)測(cè)試中，Skywork R1V 分別取得 94.0 和 72.0 分；在 Vision 視覺理解能力方面，Skywork R1V 成功地將其文本推理與思維鏈推導(dǎo)能力遷移到視覺任務(wù)中，在 MMMU 與 MathVista 等視覺推理基準(zhǔn)中分別取得了 69 和 67.5 分。

昆侖萬(wàn)維稱 Skywork R1V 模型擁有三項(xiàng)關(guān)鍵技術(shù)創(chuàng)新，IT之家附如下：

文本推理能力的多模態(tài)高效遷移
昆侖萬(wàn)維團(tuán)隊(duì)首次提出利用 Skywork-VL 的視覺投影器，無(wú)需重新訓(xùn)練語(yǔ)言模型和視覺編碼器，即可實(shí)現(xiàn)文本推理能力的高效遷移到視覺任務(wù)，同時(shí)保留了優(yōu)秀的原本推理文本能力（AIME 72.0，MATH500 94.0）。
多模態(tài)混合式訓(xùn)練（Iterative SFT+GRPO）
通過結(jié)合迭代監(jiān)督微調(diào)（Iterative SFT）和 GRPO 強(qiáng)化學(xué)習(xí)，分階段對(duì)齊視覺-文本表征，實(shí)現(xiàn)跨模態(tài)任務(wù)的高效融合，極大提升跨模態(tài)任務(wù)的表現(xiàn)。推動(dòng)模型在 MMMU 基準(zhǔn)達(dá)到 69 分的能力，同時(shí)在 MathVista 達(dá)到 67.5 分，與更大規(guī)模的閉源模型基本持平。通過反復(fù)迭代地利用高質(zhì)量數(shù)據(jù)與高難度數(shù)據(jù)的組合，實(shí)現(xiàn)模型持續(xù)的知識(shí)鞏固與錯(cuò)誤糾正，顯著提升了多模態(tài)推理的精度與泛化性能。
▲ 多模態(tài)混合式訓(xùn)練（來源：Skywork R1V 技術(shù)報(bào)告）
自適應(yīng)長(zhǎng)度思維鏈蒸餾
團(tuán)隊(duì)提出了一種基于視覺-文本復(fù)雜度的自適應(yīng)推理鏈長(zhǎng)度控制機(jī)制，動(dòng)態(tài)優(yōu)化模型推理過程，避免模型“過度思考”，提升推理效率。結(jié)合多階段自蒸餾策略，進(jìn)一步提升了數(shù)據(jù)生成與推理過程的質(zhì)量，促進(jìn)了模型在復(fù)雜多模態(tài)任務(wù)中的表現(xiàn)。
▲ 自適應(yīng)長(zhǎng)度思維鏈蒸餾（來源：Skywork R1V 技術(shù)報(bào)告）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

開啟多模態(tài)思考新時(shí)代：昆侖萬(wàn)維開源 R1V 視覺思維鏈推理模型

模型權(quán)重下載

詳細(xì)技術(shù)報(bào)告

文本推理能力的多模態(tài)高效遷移

多模態(tài)混合式訓(xùn)練（Iterative SFT+GRPO）

自適應(yīng)長(zhǎng)度思維鏈蒸餾

相關(guān)文章