在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

小米開源“Xiaomi MiMo”大模型:為推理而生,以 7B 參數(shù)超越 OpenAI o1-mini

2025/4/30 9:46:36 來源:IT之家 作者:清源 責(zé)編:清源
感謝IT之家網(wǎng)友 軟媒用戶1392612 的線索投遞!

IT之家 4 月 30 日消息,小米大模型團(tuán)隊(duì)通過“Xiaomi MiMo”公眾號(hào)宣布,今天,小米開源首個(gè)“為推理而生”的大模型 Xiaomi MiMo,聯(lián)動(dòng)預(yù)訓(xùn)練到后訓(xùn)練,全面提升推理能力。據(jù)介紹,MiMo 是來自全新成立不久的“小米大模型 Core 團(tuán)隊(duì)”的初步嘗試。

在數(shù)學(xué)推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)公開測評(píng)集上,MiMo 僅用 7B 的參數(shù)規(guī)模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規(guī)模的開源推理模型 QwQ-32B-Preview。

官方表示,MiMo 推理能力的提升,由預(yù)訓(xùn)練和后訓(xùn)練階段中數(shù)據(jù)和算法等多層面的創(chuàng)新聯(lián)合驅(qū)動(dòng),包括:

  • 預(yù)訓(xùn)練:核心是讓模型見過更多推理模式

    • 數(shù)據(jù):著重挖掘富推理語料,并合成約 200B tokens 推理數(shù)據(jù)。

    • 訓(xùn)練:進(jìn)行了三階段訓(xùn)練,逐步提升訓(xùn)練難度,總訓(xùn)練 25T tokens。

圖片

  • 后訓(xùn)練:核心是高效穩(wěn)定的強(qiáng)化學(xué)習(xí)算法和框架

    • 算法:提出 Test Difficulty Driven Reward 來緩解困難算法問題中的獎(jiǎng)勵(lì)稀疏問題,并引入 Easy Data Re-Sampling 策略,以穩(wěn)定 RL 訓(xùn)練。

    • 框架:設(shè)計(jì)了 Seamless Rollout 系統(tǒng),使得 RL 訓(xùn)練加速 2.29 倍,驗(yàn)證加速 1.96 倍。

圖片

IT之家附開源地址:

  • Hugging Face:https://huggingface.co/XiaomiMiMo

  • 技術(shù)報(bào)告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:小米,人工智能,推理模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知