在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

DeepSeek 創(chuàng)始人梁文鋒在《自然》雜志回應(yīng)質(zhì)疑,R1 訓(xùn)練真 29.4 萬美金

新智元 2025/9/18 15:42:14 責(zé)編:清源

DeepSeek 榮登 Nature 封面,實至名歸!今年 1 月,梁文鋒帶隊 R1 新作,開創(chuàng)了 AI 推理新范式 —— 純粹 RL 就能激發(fā) LLM 無限推理能力。Nature 還特發(fā)一篇評論文章,對其大加贊賞。

剛剛,DeepSeek-R1 登上了 Nature 封面!

今年 1 月,DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 論文發(fā)布,如今成功登上全球頂刊封面。

通訊作者梁文鋒帶隊,用 RL 為大模型推理能力開辟了全新路徑。

論文地址:https://www.nature.com/articles/s41586-025-09422-z

在封面推薦中,Nature 毫不吝嗇地贊揚了 DeepSeek-R1 的成就。

開源之后,R1 在 Hugging Face 成為最受歡迎的模型,下載量破 1090 萬次。關(guān)鍵是,它是全球首個經(jīng)過同行評審的主流大模型。

值得一提的是,補充材料首次公開了 R1 訓(xùn)練成本 ——294000 美元,數(shù)字低到驚人。

即便是加上約 600 萬美元的基礎(chǔ)模型成本,也遠(yuǎn)低于 OpenAI、谷歌訓(xùn)練 AI 的成本。

從一篇 arXiv 論文到 Nature 封面,DeepSeek 團隊再次用實力為 AI 推理的未來鋪路。

R1 被認(rèn)為是首個經(jīng)歷同行評審過程的主流 LLM。

審稿人 Lewis Tunstall 表示:

這是一個非常值得歡迎的先例。若不公開分享大部分研發(fā)過程,我們將難以評估這些系統(tǒng)是否存在風(fēng)險。

針對同行評審意見,DeepSeek 減少了擬人化描述,并增加了技術(shù)細(xì)節(jié)說明,包括模型訓(xùn)練數(shù)據(jù)類型和安全性能。

審稿人 Huan Sun 表示:

通過嚴(yán)格同行評審過程,有助于驗證模型的有效性和實用性,其他公司也應(yīng)效仿。

DeepSeek-R1-Zero 誕生

研究團隊的出發(fā)點大膽而純粹:徹底拋開對人類推理軌跡的依賴。

人類定義的推理模式,可能反而是一種束縛。

他們選擇了一個強大的基礎(chǔ)模型 DeepSeek-V3 Base,跳過了傳統(tǒng)的 SFT 階段。

取而代之的,是一個極其簡潔的強化學(xué)習(xí)框架,只告訴模型兩件事:

1. 任務(wù)格式:回答必須包含兩部分,一個是被 <think> 標(biāo)簽包裹的「思考過程」,另一個是被 < answer > 標(biāo)簽包裹的「最終答案」。

2. 獎勵信號:根據(jù)最終答案是否正確來給予獎勵,不管采用什么樣的思考方法。

在沒有解題步驟的對錯評判,沒有思維方式的引導(dǎo)下,DeepSeek-R1-Zero 開始了它的「野蠻生長」。

在整個訓(xùn)練過程中,R1-Zero 的推理能力發(fā)生了質(zhì)的飛躍。

以 AIME 2024 為例,它的平均解題準(zhǔn)確率(pass@1)從最初的 15.6%,一路狂飆至 77.9%。

如果再配合「自洽解碼」技術(shù),準(zhǔn)確率更是高達(dá) 86.7%—— 這一成績遠(yuǎn)超 AIME 競賽中所有人類選手的平均水平。

AI「頓悟時刻」

更令人著迷的,是它在能力提升過程中展現(xiàn)出的自我進(jìn)化行為。

  • 「思考時間」自主增加

隨著訓(xùn)練的進(jìn)行,模型在 <think> 標(biāo)簽內(nèi)生成的文本長度穩(wěn)步增加。

它自發(fā)地學(xué)會了用更長的「思維鏈」來探索和優(yōu)化解題策略,有時甚至?xí)沙砂偕锨€ token 來反復(fù)推敲一個問題。

  • 高級推理策略的涌現(xiàn)

模型不再是線性地一步步解題,而是開始展現(xiàn)出「自我反思」和「系統(tǒng)性探索替代解法」等高級策略。

它會驗證自己的中間步驟,甚至?xí)鲃犹剿鳌溉绻矣昧硪环N方法會怎么樣?」

  • 一個有趣「頓悟時刻」

在訓(xùn)練的某個階段,研究人員觀察到了一個清晰的「頓悟時刻」(Aha Moment)。

也就是,模型在反思過程中,使用「wait」(等等)這個詞的頻率突然急劇增加。

這一時刻,標(biāo)志著 DeepSeek-R1-Zero 在推理模式上發(fā)生了明顯轉(zhuǎn)變,清晰地揭示了它的自我進(jìn)化過程。

而這種進(jìn)化,也完美詮釋了強化學(xué)習(xí)的魅力:

不必教它如何解題,只需提供正確的激勵,它就能自主地發(fā)展出比人類教的更高級的策略。

DeepSeek-R1 之路

盡管 DeepSeek-R1-Zero 展現(xiàn)了神級的推理能力,但由于其訓(xùn)練完全以推理為導(dǎo)向,它存在可讀性差、偶爾會在中英文之間混亂切換的問題,并且在寫作、開放域問答等通用能力上表現(xiàn)平平。

為了解決 R1-Zero 的問題,并讓其強大的推理能力能被更廣泛地應(yīng)用,研究團隊設(shè)計了一套精密的多階段訓(xùn)練流程,并啟動了第二階段的「精煉」計劃:

1. 冷啟動(Cold Start):首先,用數(shù)千條高質(zhì)量的、符合人類對話習(xí)慣的數(shù)據(jù)對模型進(jìn)行初步微調(diào),教它「好好說話」。

2. 第一輪強化學(xué)習(xí)(RL):再次應(yīng)用強化學(xué)習(xí),但這次的目標(biāo)不僅是提升推理,也包括保持語言的一致性和對話的流暢性。

3. 大規(guī)模監(jiān)督微調(diào)(SFT):團隊將推理數(shù)據(jù)與海量的非推理數(shù)據(jù)(如寫作、通用問答、代碼工程)混合在一起,進(jìn)行大規(guī)模的監(jiān)督微調(diào)。這極大地擴展了模型的知識面和通用能力。

4. 第二輪強化學(xué)習(xí)(RL):最后,再進(jìn)行一輪全面的強化學(xué)習(xí),利用一個更復(fù)雜的獎勵模型,進(jìn)一步增強模型的有用性、無害性,并使其行為與人類偏好對齊。

經(jīng)過多輪煉丹,DeepSeek-R1 不僅在 AlpacaEval 2.0 和 Arena-Hard 等衡量通用指令遵循和用戶偏好的基準(zhǔn)上,性能提升了 17%-25%,而且還在數(shù)學(xué)、編程等高難度推理任務(wù)上保持了頂尖水準(zhǔn)。

揭秘 DeepSeek-R1「煉丹爐」

接下來,就讓我們深入這個「煉丹爐」的內(nèi)部,一探究竟。

GRPO 算法

在 AI 訓(xùn)練的賽道上,強化學(xué)習(xí)算法 PPO(近端策略優(yōu)化)長期以來都是大語言模型訓(xùn)練的「標(biāo)配賽車」。它雖然強大,但也以資源消耗巨大和實現(xiàn)復(fù)雜而著稱。

DeepSeek 團隊選擇了一條更聰明的路,他們采用了 GRPO(組相對策略優(yōu)化)算法作為核心驅(qū)動引擎。

PPO 就像一位極其謹(jǐn)慎的教練,它在每次訓(xùn)練更新時,都會嚴(yán)格限制新策略與舊策略的偏離程度,以防模型「跑偏」導(dǎo)致訓(xùn)練崩潰。

這種謹(jǐn)慎是有代價的,它需要大量的計算來維持穩(wěn)定。

而 GRPO 則像一位更高效、更相信「集體智慧」的教練。它的核心思想是:

在每次訓(xùn)練時,讓模型針對同一個問題,生成一組(比如 16 個)不同的答案。

然后,它不只是簡單地獎勵最好的那個,而是根據(jù)這一組答案的「相對好壞」,來整體優(yōu)化模型。

具體來說,它會計算出每個答案相對于這一組答案平均水平的「優(yōu)勢」(Advantage),優(yōu)勢大的(即表現(xiàn)更好的)答案會得到更大的激勵權(quán)重,而表現(xiàn)差的則會被抑制。

這種「組內(nèi)競爭、擇優(yōu)而學(xué)」的機制,簡化了 PPO 復(fù)雜的約束過程,不僅顯著降低了資源消耗,還被證明在實踐中同樣穩(wěn)定高效。

獎勵設(shè)計

強化學(xué)習(xí)的本質(zhì),就是通過獎勵(Reward)來塑造模型的行為。它決定了模型將朝著哪個方向進(jìn)化。

為此,DeepSeek 團隊設(shè)計了一套雙軌制的獎勵系統(tǒng)。

1. 基于規(guī)則的獎勵

對于推理任務(wù)(數(shù)學(xué)、編程、邏輯),團隊采用了一套極其嚴(yán)格的基于規(guī)則的獎勵系統(tǒng)。

  • 準(zhǔn)確率獎勵:最終答案對不對?對于數(shù)學(xué)題,答案必須和標(biāo)準(zhǔn)答案完全一致;對于編程題,代碼必須通過所有預(yù)設(shè)的測試用例。

  • 格式獎勵:思考過程是否符合規(guī)范?所有的思考過程都必須封裝在 <think> 和 </think > 標(biāo)簽內(nèi)。

這里,有一個關(guān)鍵的決定:在推理任務(wù)上,完全不使用基于神經(jīng)網(wǎng)絡(luò)的獎勵模型。

因為團隊發(fā)現(xiàn),AI 在長時間、大規(guī)模的強化學(xué)習(xí)中,會找到獎勵模型本身的漏洞并加以利用,即所謂的「獎勵投機(Reward Hacking)」。

2. 基于模型的獎勵

然而,世界并非非黑即白。對于通用任務(wù)比如寫作、對話,大多只有好壞之分。

于是,DeepSeek 團隊引入了基于模型的獎勵,從而讓模型更符合人類的偏好。

  • 有用性獎勵模型:專門負(fù)責(zé)評判模型的回答對用戶是否有用、切題。它通過比較大量的「好答案」與「壞答案」對(由 DeepSeek-V3 生成并篩選)來學(xué)習(xí)人類的偏好。有趣的是,它只評估最終的摘要部分,而不去干涉底層的推理過程,給予模型在思考上的充分自由。

  • 安全獎勵模型:負(fù)責(zé)檢查模型的全部輸出,包括思考過程,以識別和懲罰任何潛在的有害、偏見或危險內(nèi)容。

如此一來,模型在保持強大推理能力的同時,也學(xué)會了如何生成更有用、更安全、更符合人類習(xí)慣的內(nèi)容。

訓(xùn)練細(xì)節(jié)

DeepSeek 的訓(xùn)練并非一蹴而就,而是分為多個精心設(shè)計的階段,每個階段都有不同的側(cè)重點和巧妙的參數(shù)調(diào)整。

最開始的訓(xùn)練完全聚焦于數(shù)學(xué)、編程等推理任務(wù),僅使用基于規(guī)則的獎勵。

一個有趣的現(xiàn)象發(fā)生在訓(xùn)練進(jìn)行到第 8,200 步時:研究人員將模型處理的最大文本長度從 32,768 個 Token 猛增到 65,536 個 Token。

這一改變帶來了立竿見影的效果,模型的性能和回答長度都出現(xiàn)了「大幅躍升」。

其他參數(shù)設(shè)置如下:

學(xué)習(xí)率:3×10??

KL 散度系數(shù):0.001

GRPO 裁剪比率 ?:10

推理采樣溫度:1

每個訓(xùn)練步包含 32 個獨立問題,每步的批大小為 512。

每 400 步,用最新的策略模型替換參考模型。

  • 第一強化學(xué)習(xí)階段

在這一階段,訓(xùn)練數(shù)據(jù)變得更加多樣化。

團隊遇到了一個意想不到的挑戰(zhàn):模型的「思維鏈」(<think> 標(biāo)簽內(nèi)的內(nèi)容)中頻繁出現(xiàn)中英夾雜的「語言混合」現(xiàn)象。雖然這不一定影響最終答案的正確性,但極大地影響了可讀性。

為了解決這個問題,他們創(chuàng)造性地引入了一個「語言一致性獎勵」:如果模型在處理中文問題時,思維鏈中中文詞匯的比例越高,獲得的獎勵就越多。

盡管實驗表明,強行「矯正」語言會導(dǎo)致模型性能微乎其微的下降,但為了輸出結(jié)果更符合人類閱讀習(xí)慣,這個犧牲是值得的。

  • 第二強化學(xué)習(xí)階段

在這一階段,研究人員結(jié)合了獎勵信號和多樣化的提示詞分布來訓(xùn)練模型。

推理數(shù)據(jù)使用基于規(guī)則的獎勵,通用數(shù)據(jù)則啟用基于模型的獎勵。

獎勵可以公式化為:

其中

第二階段保留了第一階段的大部分參數(shù),但將溫度降至 0.7,以防因為系數(shù)過高造導(dǎo)致生成內(nèi)容不連貫。

此外,這里還有一個關(guān)鍵操作:基于模型的獎勵(有用性和安全性)僅在最后 400 個訓(xùn)練步中才被引入,從而避免獎勵投機的產(chǎn)生。

挑戰(zhàn)與未來

DeepSeek-R1 的誕生,為 AI 發(fā)展帶來了深刻的啟示,也伴隨著新的挑戰(zhàn)。

  • 能力局限

    在結(jié)構(gòu)化輸出和工具使用(如調(diào)用計算器、搜索引擎)方面,目前的 DeepSeek-R1 尚有欠缺。它對提示詞非常敏感,不適合復(fù)雜的少樣本提示,在零樣本直接提問時效果最佳。此外,由于強化學(xué)習(xí)在耗時長的軟件工程任務(wù)上效率不高,R1 在該領(lǐng)域的提升有限。

  • 獎勵投機

    純強化學(xué)習(xí)的成功,完全依賴于可靠的獎勵信號。在數(shù)學(xué)、編程這類有明確對錯答案的領(lǐng)域,這很容易實現(xiàn)。但對于像「寫一首優(yōu)美的詩」這樣主觀的任務(wù),則很難設(shè)計完美的獎勵模型。如果獎勵信號本身有漏洞,策略模型就會像一個聰明的學(xué)生鉆考試規(guī)則的空子一樣,「投機取巧」、騙取高分,而不是真正提升能力。

年初,DeepSeek-R1 發(fā)布后,OpenAI 感覺不可思議,指責(zé) DeepSeek「可能使用了 ChatGPT 的輸出來訓(xùn)練 R1」。

在與審稿人的交流中,DeepSeek 表示,R1 并非通過復(fù)制 OpenAI 模型生成的推理示例來學(xué)習(xí)。

不過,與大多數(shù)其他大語言模型一樣,R1 的基礎(chǔ)模型是在網(wǎng)絡(luò)上訓(xùn)練的,因此它會吸收互聯(lián)網(wǎng)上已有的 AI 生成的內(nèi)容。

俄亥俄州立大學(xué) AI 研究員 Huan Sun 表示,這一解釋「與我們在任何出版物中看到的一樣令人信服」。

Nature 審稿人、Hugging Face 機器學(xué)習(xí)工程師 Lewis Tunstall 補充說,其他實驗室的復(fù)制嘗試表明,DeepSeek 推理方法已經(jīng)足夠好,不需要這樣做。

他說:「我認(rèn)為現(xiàn)在的證據(jù)相當(dāng)明確,僅使用強化學(xué)習(xí)就可以獲得非常高的性能?!?/p>

Lewis Tunstall 說,其他研究人員現(xiàn)在正試圖應(yīng)用創(chuàng)建 R1 的方法來改進(jìn)現(xiàn)有大語言模型的類似推理能力,并將其擴展到數(shù)學(xué)和編碼以外的領(lǐng)域。他補充說,通過這種方式,R1「開啟了一場革命」。

參考資料:HYJ

  • https://www.nature.com/articles/s41586-025-09422

  • https://www.nature.com/articles/d41586-025-03015-6

本文來自微信公眾號:新智元(ID:AI_era)原文標(biāo)題:《剛剛,DeepSeek 登上 Nature 封面!梁文鋒帶隊回應(yīng)質(zhì)疑,R1 訓(xùn)練真 29.4 萬美金》

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,NatureDeepSeek

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知