DeepSeek-R1 論文登上《自然》封面，通訊作者為梁文鋒

2025/9/18 8:26:02 來源：IT之家作者：浩渺責(zé)編：浩渺

評論：

感謝IT之家網(wǎng)友僅此的線索投遞！

IT之家 9 月 18 日消息，由 DeepSeek 團隊共同完成、梁文鋒擔(dān)任通訊作者的 DeepSeek-R1 推理模型研究論文，登上了國際權(quán)威期刊《自然（Nature）》第 645 期的封面。與今年 1 月發(fā)布的 DeepSeek-R1 的初版論文相比，本次論文披露了更多模型訓(xùn)練的細(xì)節(jié)。

據(jù)悉，DeepSeek-R1 也是全球首個經(jīng)過同行評審的主流大語言模型。Nature 評價道：目前幾乎所有主流的大模型都還沒有經(jīng)過獨立同行評審，這一空白“終于被 DeepSeek 打破”。

DeepSeek-R1 論文登上《自然》封面，通訊作者為梁文鋒

論文摘要顯示，通用推理一直是人工智能（AI）領(lǐng)域一項長期且艱巨的挑戰(zhàn)。近年來，以大型語言模型（LLMs）、和思維鏈（CoT）提示為代表的技術(shù)突破，已在基礎(chǔ)推理任務(wù)上取得了顯著成功。然而，這種成功在很大程度上依賴于大量人工標(biāo)注的演示數(shù)據(jù)，且模型在處理更復(fù)雜問題時的能力仍顯不足。

研究表明，大型語言模型的推理能力可通過純強化學(xué)習(xí)（RL）來激發(fā)，無需依賴人工標(biāo)注的推理軌跡。所提出的強化學(xué)習(xí)框架能夠促進高級推理模式的自主形成，例如自我反思、驗證和動態(tài)策略調(diào)整。

因此，經(jīng)訓(xùn)練的模型在數(shù)學(xué)、編程競賽和 STEM（科學(xué)、技術(shù)、工程、數(shù)學(xué)）領(lǐng)域等可驗證任務(wù)上展現(xiàn)出更優(yōu)異的性能，優(yōu)于通過傳統(tǒng)監(jiān)督學(xué)習(xí)（基于人工演示數(shù)據(jù)）訓(xùn)練的同類模型。此外，這些大規(guī)模模型所呈現(xiàn)的自主形成的推理模式，可被系統(tǒng)性地用于指導(dǎo)和提升小型模型的推理能力。

IT之家附論文鏈接：

https://www.nature.com/articles/s41586-025-09422-z

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

DeepSeek-R1 論文登上《自然》封面，通訊作者為梁文鋒

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

DeepSeek-R1 論文登上《自然》封面，通訊作者為梁文鋒

相關(guān)文章

DeepSeek-R1 論文登上《自然》封面，通訊作者為梁文鋒