小米多模態(tài)大模型 MiMo-VL 開源，官方稱多方面領先 Qwen2.5-VL-7B

2025/5/30 16:06:03 來源：IT之家作者：清源責編：清源

評論：

感謝IT之家網(wǎng)友 zerodert 的線索投遞！

IT之家 5 月 30 日消息，Xiaomi MiMo 官方公眾號今日發(fā)文宣布，小米多模態(tài)大模型 Xiaomi MiMo-VL 現(xiàn)已正式開源。官方表示，其在圖片、視頻、語言的通用問答和理解推理等多個任務上，大幅領先同尺寸標桿多模態(tài)模型 Qwen2.5-VL-7B，并且在 GUI Grounding 任務上比肩專用模型，為 Agent 時代而來。

MiMo-VL-7B 在保持 MiMo-7B 純文本推理能力的同時，在多模態(tài)推理任務上，僅用 7B 參數(shù)規(guī)模，在奧林匹克競賽（OlympiadBench）和多個數(shù)學競賽（MathVision、MathVerse）大幅領先 10 倍參數(shù)大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview，也超越閉源模型 GPT-4o。

在評估真實用戶體驗的內(nèi)部大模型競技場中，MiMo-VL-7B 超越 GPT-4o，成為開源模型第一。

其能夠完成復雜圖片推理和問答等任務，在長達 10 多步的 GUI 操作上，MiMo-VL-7B 也展示了不錯的潛力，甚至能幫你加購小米 SU7 至心愿單。

小米多模態(tài)大模型 MiMo-VL 開源，官方稱多方面領先 Qwen2.5-VL-7B

其采用了高質量的預訓練數(shù)據(jù)以及創(chuàng)新的混合在線強化學習算法（Mixed On-policy Reinforcement Learning, MORL）：

多階段預訓練：
收集、清洗、合成了高質量的預訓練多模態(tài)數(shù)據(jù)，涵蓋圖片-文本對、視頻-文本對、GUI 操作序列等數(shù)據(jù)類型，總計 2.4T tokens。通過分階段調整不同類型數(shù)據(jù)的比例，強化長程多模態(tài)推理的能力。
混合在線強化學習：
混合文本推理、多模態(tài)感知 + 推理、RLHF 等反饋信號，并通過在線強化學習算法穩(wěn)定加速訓練，全方位提升模型推理、感知性能和用戶體驗。

MiMo-VL-7B 已開源 RL 前后兩個模型，IT之家附開源鏈接：https://huggingface.co/XiaomiMiMo 及相關技術報告：https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

MiMo-VL-7B 支持 50 + 測評任務的框架也已經(jīng)開源至 GitHub：https://github.com/XiaomiMiMo/lmms-eval

廣告聲明：文內(nèi)含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：小米大模型，小米MiMo

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

小米多模態(tài)大模型 MiMo-VL 開源，官方稱多方面領先 Qwen2.5-VL-7B

相關文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

小米多模態(tài)大模型 MiMo-VL 開源，官方稱多方面領先 Qwen2.5-VL-7B

相關文章

小米多模態(tài)大模型 MiMo-VL 開源，官方稱多方面領先 Qwen2.5-VL-7B