小米 AI 新論文，雷軍千萬年薪要挖的 DeepSeek 羅福莉署名

智東西 2025/10/16 12:49:32 責編：汪淼

評論：

感謝IT之家網(wǎng)友 zerodert 的線索投遞！

10 月 14 日，小米和北京大學聯(lián)合署名的論文發(fā)表于 arXiv，曾被曝獲小米集團創(chuàng)始人兼 CEO 雷軍以千萬年薪招募的 DeepSeek“天才少女”羅福莉，出現(xiàn)在了這篇論文的通訊作者之列，但值得注意的是，論文作者中并沒有標注羅福莉?qū)儆谛∶状竽Ｐ蛨F隊。

小米 AI 新論文，雷軍千萬年薪要挖的 DeepSeek 羅福莉署名

通訊作者中的羅福莉是 95 后，她本科就讀于北京師范大學計算機專業(yè)，碩士畢業(yè)于北京大學計算語言學研究所計算語言學專業(yè)。隨后羅福莉曾在阿里巴巴達摩院主導(dǎo)開發(fā)了多語言預(yù)訓(xùn)練模型 VECO，并推動了 AliceMind 的開源工作，2022 年入職 DeepSeek，參與了 MoE 大模型 DeepSeek-V2 的研發(fā)。去年年底，小米被曝以千萬年薪挖角 DeepSeek-V2 核心開發(fā)者之一羅福莉，使其沖上熱搜，但雙方至今都未公開聲明是否正式入職小米。

小米 AI 新論文，雷軍千萬年薪要挖的 DeepSeek 羅福莉署名

▲ DeepSeek“天才少女”羅福莉（圖源：羅福莉個人公眾號）

這篇論文提出了提升 MoE 模型強化學習訓(xùn)練的新方法 Rollout Routing Replay（R3）。實驗結(jié)果證明，R3 的整體性能優(yōu)于 GRPO、TIS 這類強化學習領(lǐng)域提升模型性能的優(yōu)化算法，且引入 R3 的所有組合方法全過程無崩盤，訓(xùn)練過程中訓(xùn)練-推理 KL 散度等始終較低，在不影響訓(xùn)練速度的情況下，使得極端 token 比例減少一個量級。

當下，強化學習已成為提升大語言模型能力的關(guān)鍵方法。然而，在 MoE 模型中，路由機制往往會引入不穩(wěn)定性，甚至導(dǎo)致強化學習訓(xùn)練崩潰，但現(xiàn)有的引入重要性采樣機制等并不能提升訓(xùn)練穩(wěn)定性。不同于此前采取諸如丟棄差異較大的數(shù)據(jù)之類的變通方法，這篇論文的研究人員希望通過解決路由分布也就是 R3 來根本性解決這個問題。

論文地址：https://arxiv.org/pdf/2510.11370

01.破解強化學習崩潰的關(guān)鍵方法，小米團隊提出 R3

強化學習已成為大語言模型后期訓(xùn)練的基石，利用大規(guī)模強化學習，大模型更深入、更廣泛推理，獲得解決復(fù)雜問題所需的高級能力，但其面臨的關(guān)鍵挑戰(zhàn)是如何平衡效率和穩(wěn)定性。

現(xiàn)代強化學習框架通常使用不同的引擎進行推理和訓(xùn)練用于部署，但這種架構(gòu)上的分離可能導(dǎo)致 token 概率出現(xiàn)分歧，甚至可能導(dǎo)致災(zāi)難性的強化學習崩潰。然而，現(xiàn)有的改進方法并不能完全解決 MoE 模型上進行強化學習訓(xùn)練時出現(xiàn)的強化學習離線策略問題。

研究人員提出的 R3，其工作原理是在序列生成期間從推理引擎捕獲路由分布，并將其直接重放到訓(xùn)練引擎中。這一過程可以縮小訓(xùn)練和推理之間的差距，其顯著特征是不同引擎生成的邏輯向量的 KL 散度（量化兩個概率分布之間的差異程度，值越小說明兩個分布越接近）顯著降低，兩個階段之間概率差異顯著的 token 數(shù)量減少了大約一個數(shù)量級。

此外，該方法同時適用于在線策略（on-policy）和小批量（mini-batch）式離線策略強化學習（off-policy）場景。

論文提到了研究團隊的三大主要貢獻：

1、系統(tǒng)識別和分析了 MoE 模型中訓(xùn)練和推理之間的路由分布差異，強調(diào)了它們在訓(xùn)練不穩(wěn)定性中的作用；
2、提出 Rollout Routing Replay，它重用訓(xùn)練引擎內(nèi)部的推理時間路由分布，以協(xié)調(diào)訓(xùn)練和推理之間的路由行為；
3、將 R3 應(yīng)用于多種強化學習設(shè)置進行 MoE 強化學習，并表明 R3 在穩(wěn)定性和整體性能方面優(yōu)于 GSPO 和 TIS。

02.可顯著縮小訓(xùn)練-推理差異，對 Agent 任務(wù)大有裨益

R3 的主要思路是在訓(xùn)練前向傳播過程中重用推理路由掩碼 I，同時仍將 softmax 應(yīng)用于訓(xùn)練邏輯以保持梯度流。

這種設(shè)計主要有兩個目的：一是對齊訓(xùn)練和推理，確保訓(xùn)練重放期間使用的專家與推理期間選擇的專家相匹配，從而消除專家選擇中的不匹配；二是保留梯度數(shù)據(jù)流，通過僅重放掩碼，梯度仍然可以流回 logits 而不會干擾計算圖，這有助于有效地優(yōu)化路由器。

重放門控權(quán)重、重放輸出 y 的計算方式

▲ 重放門控權(quán)重、重放輸出 y 的計算方式

具體來看，R3 在效率優(yōu)化上，通過路由掩碼緩存（Router Mask Caching）適配多輪對話場景，降低計算開銷。

其論文提到，緩存的路由掩碼具有相似的屬性，對于相同的前綴 token，MoE 路由器應(yīng)該產(chǎn)生相同的結(jié)果，因此來自推理引擎的路由掩碼可以與前綴 KVCache 一起緩存。

對于每個層和 token 前綴，相應(yīng)的路由掩碼都存儲在 KVCache 中。當相同的前綴出現(xiàn)并命中緩存時，這些掩碼可以被重用，從而無需重新計算，這使得 R3 能夠與前綴緩存機制無縫集成。

研究人員稱，緩存路由掩碼在 Agent 場景中有較大應(yīng)用空間。例如軟件工程和網(wǎng)頁瀏覽等 Agent 任務(wù)，都涉及自回歸生成和工具調(diào)用之間的多輪交互，為了提高效率，這些過程直接重用了前幾輪的 KVCache，因此無需重新生成已計算的數(shù)據(jù)。路由掩碼緩存使 R3 能夠在強化學習代理任務(wù)中保持高效，而無需重新預(yù)填充以生成路由掩碼。

為了證明 R3 在縮小訓(xùn)練-推理差異上的有效性，研究人員使用 Qwen3-30B-A3B 模型進行了驗證，其將推理過程中獲得的路由分布緩存在 SGLang 上，并在 Megatron 框架內(nèi)重放它們。

使用 Megatron 進行兩次前向傳播獲得的概率

▲ 使用 Megatron 進行兩次前向傳播獲得的概率

結(jié)果表明，應(yīng)用 R3 后，訓(xùn)練和推理之間的 KL 散度從 1.5×10?3 減小到 7.5×10??，接近于稠密模型的 6.4×10??水平，這表明其訓(xùn)練-推理差異減少。

研究人員還繪制了使用 R3 的訓(xùn)練-推理差異比率的累積分布圖，對于 MoE 模型，應(yīng)用 R3 可將具有較大訓(xùn)練推理差異的 token 的頻率降低一個數(shù)量級。

小米 AI 新論文，雷軍千萬年薪要挖的 DeepSeek 羅福莉署名

▲ a、MoE 模型中訓(xùn)練-推理差異的說明，b、MoE+R3 模型中訓(xùn)練-推理差異的說明，c、稠密模型中訓(xùn)練-推理差異的說明，d、極端 token 分布函數(shù)

03.實測三大能力提升：整體性能、訓(xùn)練穩(wěn)定、優(yōu)化生成行為

為了評估 R3 對強化學習的性能改進，研究人員從 BigMath、ORZ 等開源數(shù)據(jù)集篩選約 10 萬道可驗證數(shù)學題，采用 AIME24、AIME25、AMC23 和 MATH500 作為基準數(shù)據(jù)集進行評估，并在單次訓(xùn)練過程中每 5 個全局步驟測量一次模型性能。

其選擇的模型是 Qwen3-30B-A3B-Base 及其微調(diào)模型 Qwen3-30B-A3B-SFT。

評估方式是每 5 個全局步驟記錄模型性能，最終報告最佳性能及對應(yīng)訓(xùn)練步驟，若模型后期性能驟降，同時追蹤訓(xùn)練崩盤步驟”。

實驗結(jié)果表明，整體性能上，R3 在多步更新場景，GRPO+R3 平均得分 68.05 分，比 GSPO 高出 1.29 分；GSPO+R3 進一步提升至 69.00，比單獨 GSPO 高 2.24 分。

單步更新場景，SFT 模型上，GRPO+R3 平均得分 71.83 分，比 GRPO（62.23）高 9.6 分，比 GRPO+TIS（66.24）高 5.59 分；Base 模型上，GRPO+R3 平均得分 70.73，比 GRPO（61.69）高 9.04 分。

主要評估結(jié)果

▲ 主要評估結(jié)果

研究人員還發(fā)現(xiàn)，將 R3 與 TIS 結(jié)合使用并不能帶來明顯的性能提升，甚至可能降低性能，例如在 SFT 模型的單小步設(shè)置下，TIS+R3 的得分比單獨使用 R3 低 1.69 分。由于 R3 已經(jīng)顯著降低了訓(xùn)練和推理之間的策略差異，因此 TIS 的額外校正效果微乎其微。

訓(xùn)練穩(wěn)定性方面：如 GRPO、GRPO+TIS 等無 R3 的方法在單步更新場景中均出現(xiàn)崩盤，GRPO 在 60 步崩盤、GRPO+TIS 在 105 步崩盤。

引入 R3 后，所有組合方法均無崩盤，且訓(xùn)練過程中訓(xùn)練-推理 KL 散度等始終較低。

多步更新訓(xùn)練-推理崩潰分析

▲ 多步更新訓(xùn)練-推理崩潰分析

優(yōu)化與生成行為方面，在訓(xùn)練過程中，R3 還能增強優(yōu)化穩(wěn)定性、探索行為和生成動態(tài)。下圖是研究人員繪制的單步 + 基礎(chǔ)模型組訓(xùn)練過程中的序列長度、梯度范數(shù)、生成熵和評估分數(shù)。

wen3-30B-A3B-Base 訓(xùn)練動態(tài)

▲ wen3-30B-A3B-Base 訓(xùn)練動態(tài)

結(jié)果顯示，R3 具有更小的梯度范數(shù)、更平滑的序列增長模式和更穩(wěn)定的熵。實驗中使用 R3 時，生成的序列長度在訓(xùn)練開始時迅速上升，表明 R3 能夠快速捕捉到正確的優(yōu)化方向，相比之下其他兩個訓(xùn)練過程在第 80 步之后才緩慢上升，并且波動更為明顯；R3 始終保持較低的梯度范數(shù)，表明優(yōu)化過程更加穩(wěn)定；實驗使用 R3 時，熵在大約第 25 步后開始穩(wěn)步上升，表明模型更早地開始探索更優(yōu)策略，不使用 R3 時，熵上升得更晚，并且波動較大。

04.結(jié)語：聚焦 MoE 模型訓(xùn)練難題，小米提出新思路

MoE 架構(gòu)如今已成為擴展現(xiàn)代語言模型的基石，其采用門控網(wǎng)絡(luò)，對每個 token 稀疏地僅激活一部分專家參數(shù)，從而將模型的總參數(shù)數(shù)量與其推理成本分離開來，從而大幅提升了模型容量。然而，由于門控網(wǎng)絡(luò)的敏感性，MoE 模型容易受到訓(xùn)練不穩(wěn)定性的影響，這使得路由穩(wěn)健性成為有效模型收斂的核心挑戰(zhàn)。

在這篇論文中，研究人員在訓(xùn)練過程中重用推理時的路由分布，以在保留梯度流的同時對齊專家選擇。這種思路或為行業(yè)提供了新的研究思路。

本文來自微信公眾號：智東西（ID：zhidxcom），作者：程茜，原標題《小米 AI 新論文！雷軍千萬年薪要挖的 DeepSeek 天才少女署名》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

小米 AI 新論文，雷軍千萬年薪要挖的 DeepSeek 羅福莉署名

01.破解強化學習崩潰的關(guān)鍵方法，小米團隊提出 R3

02.可顯著縮小訓(xùn)練-推理差異，對 Agent 任務(wù)大有裨益

03.實測三大能力提升：整體性能、訓(xùn)練穩(wěn)定、優(yōu)化生成行為

04.結(jié)語：聚焦 MoE 模型訓(xùn)練難題，小米提出新思路

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

小米 AI 新論文，雷軍千萬年薪要挖的 DeepSeek 羅福莉署名

01.破解強化學習崩潰的關(guān)鍵方法，小米團隊提出 R3

02.可顯著縮小訓(xùn)練-推理差異，對 Agent 任務(wù)大有裨益

03.實測三大能力提升：整體性能、訓(xùn)練穩(wěn)定、優(yōu)化生成行為

04.結(jié)語：聚焦 MoE 模型訓(xùn)練難題，小米提出新思路

相關(guān)文章

小米 AI 新論文，雷軍千萬年薪要挖的 DeepSeek 羅福莉署名

01.破解強化學習崩潰的關(guān)鍵方法，小米團隊提出 R3

02.可顯著縮小訓(xùn)練-推理差異，對 Agent 任務(wù)大有裨益

03.實測三大能力提升：整體性能、訓(xùn)練穩(wěn)定、優(yōu)化生成行為