在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

小紅書首個多模態(tài) AI 大模型 dots.vlm1 發(fā)布并開源,基于 DeepSeek V3 LLM

2025/8/6 18:36:27 來源:IT之家 作者:汪淼 責編:汪淼
感謝IT之家網(wǎng)友 軟媒用戶1392612 的線索投遞!

IT之家 8 月 6 日消息,小紅書 hi lab 研發(fā)并開源的首個多模態(tài)大模型 dots.vlm1 今日正式發(fā)布,借助一個從零訓(xùn)練的 12 億參數(shù)視覺編碼器以及基于 DeepSeek V3 LLM 構(gòu)建。

小紅書 hi lab 表示,dots.vlm1 在大部分多模態(tài)評測集上接近閉源 SoTA 模型的水平,并在文本能力和主流文本模型相當。

  • NaViT 視覺編碼器:沒有基于成熟視覺編碼器進行微調(diào),完全從零開始訓(xùn)練,原生支持動態(tài)分辨率。同時在文本監(jiān)督上增加純視覺監(jiān)督,提升感知能力上限。此外,訓(xùn)練數(shù)據(jù)上在傳統(tǒng)的 Image Caption 數(shù)據(jù)上還引入大量結(jié)構(gòu)化圖片進行原生訓(xùn)練,提升 VLM 模型的感知能力(例如各類 OCR 能力)。

  • 多模態(tài)訓(xùn)練數(shù)據(jù):在傳統(tǒng)思路上,額外引入多種合成數(shù)據(jù)思路,覆蓋多樣的圖片類型(例如表格 / Chart / 文檔 / Graphics 等)及其描述(例如 Alt Text / Dense Caption / Grounding 等);同時,利用多模態(tài)大模型來重寫圖文交錯網(wǎng)頁數(shù)據(jù),顯著提升訓(xùn)練數(shù)據(jù)質(zhì)量;

  • 通過大規(guī)模預(yù)訓(xùn)練與精細化后訓(xùn)練調(diào)優(yōu),dots.vlm1 在視覺感知與推理方面達到了接近 SOTA 的表現(xiàn),為開源視覺語言模型樹立了新的性能上限,同時在純文本任務(wù)中仍保持一定競爭力。

圖片

在主要的視覺評測集上,dots.vlm1 的整體表現(xiàn)已接近當前領(lǐng)先模型 Gemini 2.5 Pro 與 Seed-VL1.5 thinking,尤其在 MMMU / MathVision / OCR Reasoning 等多個基準測試中取得了相當競爭力的結(jié)果,顯示出較強的圖文理解與推理能力。

在典型的文本推理任務(wù)(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表現(xiàn)大致相當于 DeepSeek-R1-0528,在數(shù)學和代碼能力上已具備一定的通用性,但在 GPQA 等更多樣的推理任務(wù)上仍存在差距。

總體來看,dots.vlm1 在視覺多模態(tài)能力方面已接近 SOTA 水平,在文本推理方面達到了主流模型的性能。然而,在部分細分任務(wù)上仍與最優(yōu)結(jié)果存在一定距離,需要在架構(gòu)設(shè)計與訓(xùn)練數(shù)據(jù)上進一步優(yōu)化。

復(fù)雜圖表推理樣例:

圖片

圖片

圖片

圖片

STEM 解題樣例:

圖片

圖片

圖片

圖片

圖片

長尾識別解題樣例:

圖片

圖片

圖片

圖片

圖片

視覺推理樣例:

圖片

圖片

圖片

圖片

IT之家附 dots.vlm1 開源地址:

https://github.com/rednote-hilab/dots.vlm1

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知