小紅書首個多模態(tài) AI 大模型 dots.vlm1 發(fā)布并開源，基于 DeepSeek V3 LLM

2025/8/6 18:36:27 來源：IT之家作者：汪淼責編：汪淼

評論：

感謝IT之家網(wǎng)友軟媒用戶1392612 的線索投遞！

IT之家 8 月 6 日消息，小紅書 hi lab 研發(fā)并開源的首個多模態(tài)大模型 dots.vlm1 今日正式發(fā)布，借助一個從零訓(xùn)練的 12 億參數(shù)視覺編碼器以及基于 DeepSeek V3 LLM 構(gòu)建。

小紅書 hi lab 表示，dots.vlm1 在大部分多模態(tài)評測集上接近閉源 SoTA 模型的水平，并在文本能力和主流文本模型相當。

NaViT 視覺編碼器：沒有基于成熟視覺編碼器進行微調(diào)，完全從零開始訓(xùn)練，原生支持動態(tài)分辨率。同時在文本監(jiān)督上增加純視覺監(jiān)督，提升感知能力上限。此外，訓(xùn)練數(shù)據(jù)上在傳統(tǒng)的 Image Caption 數(shù)據(jù)上還引入大量結(jié)構(gòu)化圖片進行原生訓(xùn)練，提升 VLM 模型的感知能力（例如各類 OCR 能力）。
多模態(tài)訓(xùn)練數(shù)據(jù)：在傳統(tǒng)思路上，額外引入多種合成數(shù)據(jù)思路，覆蓋多樣的圖片類型（例如表格 / Chart / 文檔 / Graphics 等）及其描述（例如 Alt Text / Dense Caption / Grounding 等）；同時，利用多模態(tài)大模型來重寫圖文交錯網(wǎng)頁數(shù)據(jù)，顯著提升訓(xùn)練數(shù)據(jù)質(zhì)量；
通過大規(guī)模預(yù)訓(xùn)練與精細化后訓(xùn)練調(diào)優(yōu)，dots.vlm1 在視覺感知與推理方面達到了接近 SOTA 的表現(xiàn)，為開源視覺語言模型樹立了新的性能上限，同時在純文本任務(wù)中仍保持一定競爭力。

在主要的視覺評測集上，dots.vlm1 的整體表現(xiàn)已接近當前領(lǐng)先模型 Gemini 2.5 Pro 與 Seed-VL1.5 thinking，尤其在 MMMU / MathVision / OCR Reasoning 等多個基準測試中取得了相當競爭力的結(jié)果，顯示出較強的圖文理解與推理能力。

在典型的文本推理任務(wù)（如 AIME、GPQA、LiveCodeBench）上，dots.vlm1 的表現(xiàn)大致相當于 DeepSeek-R1-0528，在數(shù)學和代碼能力上已具備一定的通用性，但在 GPQA 等更多樣的推理任務(wù)上仍存在差距。

總體來看，dots.vlm1 在視覺多模態(tài)能力方面已接近 SOTA 水平，在文本推理方面達到了主流模型的性能。然而，在部分細分任務(wù)上仍與最優(yōu)結(jié)果存在一定距離，需要在架構(gòu)設(shè)計與訓(xùn)練數(shù)據(jù)上進一步優(yōu)化。

復(fù)雜圖表推理樣例：