IT之家 3 月 18 日消息,昆侖萬(wàn)維今日正式開源首款工業(yè)界多模態(tài)思維鏈推理模型 Skywork R1V,成為中國(guó)第一個(gè)開源「多模態(tài)推理模型」的企業(yè),即日起開源模型權(quán)重和技術(shù)報(bào)告。

模型權(quán)重下載
詳細(xì)技術(shù)報(bào)告
據(jù)介紹,視覺推理模型是一類能夠解決需要思維鏈(Chain-of-Thought)的視覺任務(wù)的模型,通過對(duì)視覺信息進(jìn)行多步邏輯推理與分析,逐步推導(dǎo)出最終結(jié)果。這種模型關(guān)注圖像內(nèi)容的識(shí)別與理解,同時(shí)強(qiáng)調(diào)通過層層遞進(jìn)的推理路徑,實(shí)現(xiàn)復(fù)雜視覺問題的精準(zhǔn)求解,例如視覺邏輯推理、視覺數(shù)學(xué)問題、圖像中的科學(xué)現(xiàn)象分析、醫(yī)學(xué)影像的診斷推理等。
在 Reasoning 推理能力方面,Skywork R1V 實(shí)現(xiàn)了模型的頂尖邏輯推理與數(shù)學(xué)分析能力,在權(quán)威的 MATH500 和 AIME 基準(zhǔn)測(cè)試中,Skywork R1V 分別取得 94.0 和 72.0 分;在 Vision 視覺理解能力方面,Skywork R1V 成功地將其文本推理與思維鏈推導(dǎo)能力遷移到視覺任務(wù)中,在 MMMU 與 MathVista 等視覺推理基準(zhǔn)中分別取得了 69 和 67.5 分。

昆侖萬(wàn)維稱 Skywork R1V 模型擁有三項(xiàng)關(guān)鍵技術(shù)創(chuàng)新,IT之家附如下:
文本推理能力的多模態(tài)高效遷移
昆侖萬(wàn)維團(tuán)隊(duì)首次提出利用 Skywork-VL 的視覺投影器,無(wú)需重新訓(xùn)練語(yǔ)言模型和視覺編碼器,即可實(shí)現(xiàn)文本推理能力的高效遷移到視覺任務(wù),同時(shí)保留了優(yōu)秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。
多模態(tài)混合式訓(xùn)練(Iterative SFT+GRPO)
通過結(jié)合迭代監(jiān)督微調(diào)(Iterative SFT)和 GRPO 強(qiáng)化學(xué)習(xí),分階段對(duì)齊視覺-文本表征,實(shí)現(xiàn)跨模態(tài)任務(wù)的高效融合,極大提升跨模態(tài)任務(wù)的表現(xiàn)。推動(dòng)模型在 MMMU 基準(zhǔn)達(dá)到 69 分的能力,同時(shí)在 MathVista 達(dá)到 67.5 分,與更大規(guī)模的閉源模型基本持平。通過反復(fù)迭代地利用高質(zhì)量數(shù)據(jù)與高難度數(shù)據(jù)的組合,實(shí)現(xiàn)模型持續(xù)的知識(shí)鞏固與錯(cuò)誤糾正,顯著提升了多模態(tài)推理的精度與泛化性能。
▲ 多模態(tài)混合式訓(xùn)練(來源:Skywork R1V 技術(shù)報(bào)告) 自適應(yīng)長(zhǎng)度思維鏈蒸餾
團(tuán)隊(duì)提出了一種基于視覺-文本復(fù)雜度的自適應(yīng)推理鏈長(zhǎng)度控制機(jī)制,動(dòng)態(tài)優(yōu)化模型推理過程,避免模型“過度思考”,提升推理效率。結(jié)合多階段自蒸餾策略,進(jìn)一步提升了數(shù)據(jù)生成與推理過程的質(zhì)量,促進(jìn)了模型在復(fù)雜多模態(tài)任務(wù)中的表現(xiàn)。
▲ 自適應(yīng)長(zhǎng)度思維鏈蒸餾(來源:Skywork R1V 技術(shù)報(bào)告)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。