英偉達(dá)推出 ProRL 方法：強(qiáng)化學(xué)習(xí)訓(xùn)練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

2025/6/5 14:27:31 來源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 6 月 5 日消息，科技媒體 marktechpost 昨日（6 月 4 日）發(fā)布博文，報(bào)道稱英偉達(dá)推出 ProRL 強(qiáng)化學(xué)習(xí)方法，并開發(fā)出全球最佳的 1.5B 參數(shù)推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。

背景簡介

推理模型是一種專門的人工智能系統(tǒng)，通過詳細(xì)的長鏈推理（Chain of Thought，CoT）過程生成最終答案。

強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）在訓(xùn)練中扮演非常重要的角色，DeepSeek 和 Kimi 等團(tuán)隊(duì)采用可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）方法，推廣了 GRPO、Mirror Descent 和 RLOO 等算法。

然而，研究者仍在爭論強(qiáng)化學(xué)習(xí)是否真正提升大型語言模型（LLM）的推理能力?，F(xiàn)有數(shù)據(jù)表明，RLVR 在 pass@k 指標(biāo)上未能顯著優(yōu)于基礎(chǔ)模型，顯示推理能力擴(kuò)展受限。

此外，當(dāng)前研究多集中于數(shù)學(xué)等特定領(lǐng)域，模型常被過度訓(xùn)練，限制了探索潛力；同時(shí)，訓(xùn)練步數(shù)通常僅數(shù)百步，未能讓模型充分發(fā)展新能力。

ProRL 方法的突破與應(yīng)用

英偉達(dá)研究團(tuán)隊(duì)為解決上述問題，推出 ProRL 方法，延長強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)間至超過 2000 步，并將訓(xùn)練數(shù)據(jù)擴(kuò)展至數(shù)學(xué)、編程、STEM、邏輯謎題和指令遵循等多個(gè)領(lǐng)域，涵蓋 13.6 萬個(gè)樣本。

英偉達(dá)推出 ProRL 方法：強(qiáng)化學(xué)習(xí)訓(xùn)練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

他們采用 verl 框架和改進(jìn)的 GRPO 方法，開發(fā)出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。

這是全球最佳的 1.5B 參數(shù)推理模型，在多項(xiàng)基準(zhǔn)測試中超越基礎(chǔ)模型 DeepSeek-R1-1.5B，甚至優(yōu)于更大的 DeepSeek-R1-7B。

英偉達(dá)推出 ProRL 方法：強(qiáng)化學(xué)習(xí)訓(xùn)練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

測試結(jié)果顯示，該模型在數(shù)學(xué)領(lǐng)域平均提升 15.7%，編程任務(wù) pass@1 準(zhǔn)確率提升 14.4%，STEM 推理和指令遵循分別提升 25.9% 和 22.0%，邏輯謎題獎(jiǎng)勵(lì)值提升 54.8%，展現(xiàn)出強(qiáng)大的泛化能力。

IT之家附上參考地址

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
huggingface

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

英偉達(dá)推出 ProRL 方法：強(qiáng)化學(xué)習(xí)訓(xùn)練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

相關(guān)文章

英偉達(dá)推出 ProRL 方法：強(qiáng)化學(xué)習(xí)訓(xùn)練至 2000 步，打造全球最佳 1.5B 推理 AI 模型