首頁 > 智能時(shí)代>人工智能

快慢思考不用二選一：華為開源 7B 模型實(shí)現(xiàn)自由切，精度不變思維鏈減近 50%

量子位 2025/9/10 16:04:34 責(zé)編：汪淼

評論：

國產(chǎn)自研開源模型，讓模型不用在快思考和慢思考間二選一了！

華為最新發(fā)布 openPangu-Embedded-7B-v1.1，參數(shù)只有 7B，卻身懷雙重“思維引擎”。

要知道，長期以來，大模型快思考與慢思考模式不可兼得，這成為業(yè)界的一大痛點(diǎn)。在當(dāng)前大模型混戰(zhàn)中，各家巨頭都在尋求破局之道，但此前開源領(lǐng)域一直缺乏一款可自由切換快慢思維模式的模型。

要快，還是要慢？AI 在面對不同難度的問題時(shí)也有“選擇困難癥”。

快慢思考不用二選一：華為開源 7B 模型實(shí)現(xiàn)自由切，精度不變思維鏈減近 50%

而現(xiàn)在，openPangu-Embedded-7B-v1.1，通過漸進(jìn)式微調(diào)策略和獨(dú)特的快慢思考自適應(yīng)模式，既支持手動切換“快思考”或“慢思考”模式，也能根據(jù)問題難度自動在兩種思維模式間無縫轉(zhuǎn)換。

簡單問題它秒答如飛，復(fù)雜任務(wù)它深思熟慮，一舉填補(bǔ)了開源大模型在這一能力上的空白，讓效率與準(zhǔn)確率實(shí)現(xiàn)雙贏。

在通用、數(shù)學(xué)、代碼等多個權(quán)威評測中，該模型精度相較于此前模型大幅提升，且引入模式自動切換并沒有犧牲精度。在 CMMLU 等基準(zhǔn)中，openPangu-Embedded-7B-v1.1 保持精度的同時(shí)，平均思維鏈長度縮短近 50%。

模型現(xiàn)已在 GitCode 開源。

所以，openPangu-Embedded-7B-v1.1 究竟是如何做到的？華為盤古團(tuán)隊(duì)在模型訓(xùn)練策略上又有哪些創(chuàng)新？

漸進(jìn)式微調(diào)策略：像人一樣“進(jìn)階”學(xué)習(xí)

眾所周知，大模型往往需要海量訓(xùn)練才能具備強(qiáng)大的推理能力。然而，openPangu 團(tuán)隊(duì)并未采取一味“填鴨式”的訓(xùn)練方式，而是采用了一種漸進(jìn)式微調(diào)（SFT，Iterative Distillation）策略，模擬人類逐步進(jìn)階的學(xué)習(xí)過程。

通過精心設(shè)計(jì)的迭代訓(xùn)練，讓模型在每一步都處于“適度挑戰(zhàn)”的學(xué)習(xí)區(qū)間，能力穩(wěn)步提升。

快慢思考不用二選一：華為開源 7B 模型實(shí)現(xiàn)自由切，精度不變思維鏈減近 50%

具體來說，團(tuán)隊(duì)將漸進(jìn)式微調(diào)劃分為三個循序漸進(jìn)的階段，每一步都讓模型獲得針對性的提升：

第一步：合理選題，保持適度挑戰(zhàn)

在每一輪訓(xùn)練迭代中，模型會根據(jù)自身當(dāng)前能力對候選訓(xùn)練樣本進(jìn)行難度評分，優(yōu)先挑選難度適中、不偏易也不偏難的題目來訓(xùn)練。這樣確保模型始終在與能力相匹配的挑戰(zhàn)中學(xué)習(xí)，既不會因過于簡單停滯不前，也不會因過難而無法收獲，步步為營拓展能力邊界。

第二步：歸納總結(jié)，穩(wěn)固已有知識

完成一輪訓(xùn)練后，產(chǎn)生的多個模型版本（不同檢查點(diǎn)）不會簡單取舍，而是通過參數(shù)增量融合（inter-iteration merging）合并成統(tǒng)一的模型。這一步相當(dāng)于將新學(xué)到的知識與原有能力進(jìn)行“匯總?cè)诤稀?，讓模型的認(rèn)知更加穩(wěn)固，避免遺忘過去學(xué)到的本領(lǐng)。

第三步：持續(xù)提升，擴(kuò)展能力邊界

隨著上述循環(huán)不斷進(jìn)行，模型積累的知識與技能越來越豐富，自身能力水漲船高，能夠勝任更復(fù)雜的數(shù)據(jù)訓(xùn)練。這時(shí)，它進(jìn)入了更高水平的“拉伸區(qū)”，可以挑戰(zhàn)此前無法解答的難題。模型能力的提升又反過來推動下一輪更高難度的數(shù)據(jù)選擇，形成一個不斷進(jìn)化的良性循環(huán)。

通過這樣的漸進(jìn)式訓(xùn)練方式，openPangu-Embedded-7B-v1.1 不再是被動接受知識的“填鴨式”學(xué)習(xí)者，而是化身為一個能夠持續(xù)進(jìn)化的學(xué)習(xí)者。實(shí)驗(yàn)結(jié)果表明，這一策略讓模型的推理過程更加穩(wěn)定，泛化表現(xiàn)更加強(qiáng)勁。

快慢自適應(yīng)機(jī)制：兩階段課程，從“手動擋”進(jìn)階“自動擋”

相比之前開源的 openPangu-Embedded-7B-v1，此次開源的 openPangu-Embedded-7B-v1.1 模型最大的亮點(diǎn)，就是引入了獨(dú)特的快慢思考自適應(yīng)模式，使得模型可以自動根據(jù)任務(wù)難度選擇使用快思考還是慢思考進(jìn)行解答。

相比 4 月先行披露的技術(shù)報(bào)告，團(tuán)隊(duì)的快慢思考切換訓(xùn)練方案進(jìn)行了大幅升級，不但從方案上演進(jìn)為了數(shù)據(jù)質(zhì)量驅(qū)動的學(xué)習(xí)策略，快慢思考切換的范圍也從數(shù)學(xué)任務(wù)擴(kuò)展到了一般任務(wù)。

快慢思考不用二選一：華為開源 7B 模型實(shí)現(xiàn)自由切，精度不變思維鏈減近 50%

第一階段：教會模型區(qū)分快慢。

在這個“低難度課程”階段，研究團(tuán)隊(duì)首先通過數(shù)據(jù)構(gòu)造，讓模型明確什么是“快思考”、什么是“慢思考”。

他們精心構(gòu)建了一個混合訓(xùn)練數(shù)據(jù)集：在用戶提問（Prompt）中附加特殊的標(biāo)識符，直接告訴模型該用快思考還是慢思考來回答。通過在這個帶有明確指示信號的數(shù)據(jù)上訓(xùn)練，模型學(xué)會將特定輸入模式與對應(yīng)的思維方式、回答風(fēng)格建立關(guān)聯(lián)。

可以說，這一步猶如給模型裝上“手動變速箱”，明確劃定了兩種思考模式的界限，是一堂扎實(shí)的“熱身課”，確保模型具備基本的快慢思維切換意識。

第二階段：自主學(xué)會切換。

當(dāng)模型已經(jīng)掌握了顯式控制的本領(lǐng)后，就進(jìn)入更具挑戰(zhàn)性的“進(jìn)階課程”。這一階段不再提供外部快 / 慢提示，而是要求模型根據(jù)問題本身自行判斷何時(shí)該快、何時(shí)該慢。

從簡單樣本過渡到復(fù)雜樣本，團(tuán)隊(duì)設(shè)計(jì)了一套數(shù)據(jù)質(zhì)量驅(qū)動的自優(yōu)化訓(xùn)練策略：先用第一階段訓(xùn)練好的模型作為“教練”，為同一問題生成多樣化的解答鏈路，然后從中挑選質(zhì)量最高的解答，再以這些優(yōu)質(zhì)解答來有選擇地微調(diào)模型。

通過這種“從優(yōu)錄取”的訓(xùn)練方式，模型逐漸學(xué)會了從復(fù)雜問題中自主推斷最優(yōu)思考路徑，無需明確指令就能自動在快 / 慢模式間切換?？梢哉f，這一步為模型裝上了智能“自動變速箱”—— 它告別了對外部指令的依賴，實(shí)現(xiàn)了內(nèi)在驅(qū)動的決策。這一階段的訓(xùn)練難度顯著高于第一階段，因?yàn)槟Ｐ托枰I(lǐng)悟更深層的隱含邏輯，而不再是簡單遵循提示符號。

經(jīng)過兩個階段環(huán)環(huán)相扣的“課程學(xué)習(xí)”，openPangu-Embedded-7B-v1.1 完成了從外部信號驅(qū)動的顯式切換到內(nèi)部能力驅(qū)動的隱式切換的蛻變，大幅提升了模型在復(fù)雜推理任務(wù)中的靈活性與自主性。

最終，經(jīng)過這一套訓(xùn)練流程，新模型成功解鎖了快慢思考模式的雙模式切換 —— 既支持用戶手動指定思考模式，也能在無需人為干預(yù)下自動選擇最合適的推理方式。

快慢自適應(yīng)減少簡單任務(wù) Token 量三到五成

如此復(fù)雜的訓(xùn)練設(shè)計(jì)，最終效果如何？openPangu-Embedded-7B-v1.1 在多個權(quán)威評測上交出了令人欣喜的答卷。

首先是精度的大幅提升。相較前代模型 v1 版本，新模型在通用、數(shù)學(xué)、代碼等各類數(shù)據(jù)集上全面超越了自己過去的成績。其中在最棘手的數(shù)學(xué)難題數(shù)據(jù)集（如 AIME 挑戰(zhàn)）上，v1.1 版本取得了遠(yuǎn)超 v1 的領(lǐng)先表現(xiàn)。

快慢思考不用二選一：華為開源 7B 模型實(shí)現(xiàn)自由切，精度不變思維鏈減近 50%

更難得的是，在采用自適應(yīng)快慢思考模式下，新模型在復(fù)雜任務(wù)上的準(zhǔn)確率依然保持與純“慢思考”情況下幾乎相同的水準(zhǔn)，即引入自動切換并沒有犧牲精度。

其次在響應(yīng)效率上，成果同樣令人眼前一亮。對于簡單問題，openPangu-Embedded-7B-v1.1 能夠自動切換為快思考模式，大幅縮短不必要的冗長推理過程。

在某些基準(zhǔn)測試中（例如中文綜合知識測試集 CMMLU），新模型在保持精度基本不變的前提下，將平均輸出的思維鏈長度減少了近 50%！也就是說，同一道簡單題，它給出的解釋步驟幾乎縮短了一半，直接帶來響應(yīng)效率的翻倍提升。

與此同時(shí)，對于諸如 AIME、LiveCodeBench 這類復(fù)雜度極高的難題，模型依然會老老實(shí)實(shí)“慢思考”、給出詳盡的逐步推理，從而確保精度與只用慢思考模型相當(dāng)。簡單題不啰嗦、難題不放棄，這種智能切換讓模型在速度和精度之間取得了很好的平衡。

快慢思考不用二選一：華為開源 7B 模型實(shí)現(xiàn)自由切，精度不變思維鏈減近 50%

邊緣 AI 部署利器：1B 小模型性能拉滿

值得驚喜的是，openPangu 系列近期不僅升級了 7B 模型，還推出了一款專為邊緣 AI 部署優(yōu)化的輕量級模型 ——openPangu-Embedded-1B。

顧名思義，它只有十億參數(shù)，但卻通過多項(xiàng)技術(shù)加持，實(shí)現(xiàn)了“小體量也有大能量”。

在軟硬件協(xié)同設(shè)計(jì)方面，openPangu-Embedded-1B 針對華為昇騰端側(cè) AI 硬件進(jìn)行了架構(gòu)優(yōu)化，充分利用芯片特性，大幅降低推理延遲、提升資源利用率。

與此同時(shí)，華為團(tuán)隊(duì)采用多階段訓(xùn)練策略（包括從零開始的預(yù)訓(xùn)練、多樣化數(shù)據(jù)的課程式微調(diào)、離線同策略知識蒸餾以及多源獎勵的強(qiáng)化學(xué)習(xí)等），全面挖掘模型潛力，顯著增強(qiáng)了模型在各類任務(wù)上的表現(xiàn)。

得益于以上創(chuàng)新，這款僅 10 億參數(shù)的小模型取得了性能與效率的高度協(xié)同，在多個權(quán)威評測中成績亮眼。

據(jù)公開數(shù)據(jù)顯示，openPangu-Embedded-1B 創(chuàng)下了國內(nèi) 1B 級模型的新標(biāo)桿，其整體平均成績不僅全面領(lǐng)先其他同規(guī)模模型，甚至追平了更大參數(shù)模型 Qwen3-1.7B 的水平。

這充分體現(xiàn)了出色的參數(shù)級性能比：用更小的模型實(shí)現(xiàn)了媲美大模型的效果，為國產(chǎn)自研大模型在資源受限場景下的探索提供了新的方向。

快慢思考不用二選一：華為開源 7B 模型實(shí)現(xiàn)自由切，精度不變思維鏈減近 50%

綜上，華為 openPangu-Embedded-7B-v1.1 的發(fā)布為當(dāng)前熱度較高的大模型領(lǐng)域帶來了不一樣的思路。作為參數(shù)規(guī)模為 7B 的輕量級模型，它通過漸進(jìn)式微調(diào)和雙階段訓(xùn)練方法，實(shí)現(xiàn)了快慢思考模式的自由切換，在效率與精度之間找到了較好的平衡點(diǎn)。

無論是面向邊緣部署需求的小模型，還是追求復(fù)雜推理能力的通用模型，盤古系列的持續(xù)演進(jìn)都展現(xiàn)出國產(chǎn)大模型的創(chuàng)新活力。

未來，這一具備“快慢思考”特性的模型，有望在更多實(shí)際應(yīng)用場景中發(fā)揮價(jià)值。

項(xiàng)目已在 GitCode 開源：

https://gitcode.com/ascend-tribe/openpangu-embedded-7b-v1.1

本文來自微信公眾號：量子位（ID：QbitAI），作者：允中，原標(biāo)題《快慢思考不用二選一！華為開源 7B 模型實(shí)現(xiàn)自由切，精度不變思維鏈減近 50%》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

快慢思考不用二選一：華為開源 7B 模型實(shí)現(xiàn)自由切，精度不變思維鏈減近 50%

漸進(jìn)式微調(diào)策略：像人一樣“進(jìn)階”學(xué)習(xí)

快慢自適應(yīng)機(jī)制：兩階段課程，從“手動擋”進(jìn)階“自動擋”

快慢自適應(yīng)減少簡單任務(wù) Token 量三到五成

邊緣 AI 部署利器：1B 小模型性能拉滿

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

快慢思考不用二選一：華為開源 7B 模型實(shí)現(xiàn)自由切，精度不變思維鏈減近 50%

漸進(jìn)式微調(diào)策略：像人一樣“進(jìn)階”學(xué)習(xí)

快慢自適應(yīng)機(jī)制：兩階段課程，從“手動擋”進(jìn)階“自動擋”

快慢自適應(yīng)減少簡單任務(wù) Token 量三到五成

邊緣 AI 部署利器：1B 小模型性能拉滿

相關(guān)文章

快慢思考不用二選一：華為開源 7B 模型實(shí)現(xiàn)自由切，精度不變思維鏈減近 50%

快慢自適應(yīng)機(jī)制：兩階段課程，從“手動擋”進(jìn)階“自動擋”