在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

快慢思考不用二選一:華為開源 7B 模型實(shí)現(xiàn)自由切,精度不變思維鏈減近 50%

量子位 2025/9/10 16:04:34 責(zé)編:汪淼

國產(chǎn)自研開源模型,讓模型不用在快思考和慢思考間二選一了!

華為最新發(fā)布 openPangu-Embedded-7B-v1.1,參數(shù)只有 7B,卻身懷雙重“思維引擎”。

要知道,長期以來,大模型快思考與慢思考模式不可兼得,這成為業(yè)界的一大痛點(diǎn)。在當(dāng)前大模型混戰(zhàn)中,各家巨頭都在尋求破局之道,但此前開源領(lǐng)域一直缺乏一款可自由切換快慢思維模式的模型。

要快,還是要慢?AI 在面對不同難度的問題時(shí)也有“選擇困難癥”。

而現(xiàn)在,openPangu-Embedded-7B-v1.1,通過漸進(jìn)式微調(diào)策略獨(dú)特的快慢思考自適應(yīng)模式,既支持手動切換“快思考”或“慢思考”模式,也能根據(jù)問題難度自動在兩種思維模式間無縫轉(zhuǎn)換。

簡單問題它秒答如飛,復(fù)雜任務(wù)它深思熟慮,一舉填補(bǔ)了開源大模型在這一能力上的空白,讓效率與準(zhǔn)確率實(shí)現(xiàn)雙贏。

在通用、數(shù)學(xué)、代碼等多個權(quán)威評測中,該模型精度相較于此前模型大幅提升,且引入模式自動切換并沒有犧牲精度。在 CMMLU 等基準(zhǔn)中,openPangu-Embedded-7B-v1.1 保持精度的同時(shí),平均思維鏈長度縮短近 50%。

模型現(xiàn)已在 GitCode 開源

所以,openPangu-Embedded-7B-v1.1 究竟是如何做到的?華為盤古團(tuán)隊(duì)在模型訓(xùn)練策略上又有哪些創(chuàng)新?

漸進(jìn)式微調(diào)策略:像人一樣“進(jìn)階”學(xué)習(xí)

眾所周知,大模型往往需要海量訓(xùn)練才能具備強(qiáng)大的推理能力。然而,openPangu 團(tuán)隊(duì)并未采取一味“填鴨式”的訓(xùn)練方式,而是采用了一種漸進(jìn)式微調(diào)(SFT,Iterative Distillation)策略,模擬人類逐步進(jìn)階的學(xué)習(xí)過程。

通過精心設(shè)計(jì)的迭代訓(xùn)練,讓模型在每一步都處于“適度挑戰(zhàn)”的學(xué)習(xí)區(qū)間,能力穩(wěn)步提升。

具體來說,團(tuán)隊(duì)將漸進(jìn)式微調(diào)劃分為三個循序漸進(jìn)的階段,每一步都讓模型獲得針對性的提升:

第一步:合理選題,保持適度挑戰(zhàn)

在每一輪訓(xùn)練迭代中,模型會根據(jù)自身當(dāng)前能力對候選訓(xùn)練樣本進(jìn)行難度評分,優(yōu)先挑選難度適中、不偏易也不偏難的題目來訓(xùn)練。這樣確保模型始終在與能力相匹配的挑戰(zhàn)中學(xué)習(xí),既不會因過于簡單停滯不前,也不會因過難而無法收獲,步步為營拓展能力邊界。

第二步:歸納總結(jié),穩(wěn)固已有知識

完成一輪訓(xùn)練后,產(chǎn)生的多個模型版本(不同檢查點(diǎn))不會簡單取舍,而是通過參數(shù)增量融合(inter-iteration merging)合并成統(tǒng)一的模型。這一步相當(dāng)于將新學(xué)到的知識與原有能力進(jìn)行“匯總?cè)诤稀?,讓模型的認(rèn)知更加穩(wěn)固,避免遺忘過去學(xué)到的本領(lǐng)。

第三步:持續(xù)提升,擴(kuò)展能力邊

隨著上述循環(huán)不斷進(jìn)行,模型積累的知識與技能越來越豐富,自身能力水漲船高,能夠勝任更復(fù)雜的數(shù)據(jù)訓(xùn)練。這時(shí),它進(jìn)入了更高水平的“拉伸區(qū)”,可以挑戰(zhàn)此前無法解答的難題。模型能力的提升又反過來推動下一輪更高難度的數(shù)據(jù)選擇,形成一個不斷進(jìn)化的良性循環(huán)。

通過這樣的漸進(jìn)式訓(xùn)練方式,openPangu-Embedded-7B-v1.1 不再是被動接受知識的“填鴨式”學(xué)習(xí)者,而是化身為一個能夠持續(xù)進(jìn)化的學(xué)習(xí)者。實(shí)驗(yàn)結(jié)果表明,這一策略讓模型的推理過程更加穩(wěn)定,泛化表現(xiàn)更加強(qiáng)勁。

快慢自適應(yīng)機(jī)制:兩階段課程,從“手動擋”進(jìn)階“自動擋”

相比之前開源的 openPangu-Embedded-7B-v1,此次開源的 openPangu-Embedded-7B-v1.1 模型最大的亮點(diǎn),就是引入了獨(dú)特的快慢思考自適應(yīng)模式,使得模型可以自動根據(jù)任務(wù)難度選擇使用快思考還是慢思考進(jìn)行解答。

相比 4 月先行披露的技術(shù)報(bào)告,團(tuán)隊(duì)的快慢思考切換訓(xùn)練方案進(jìn)行了大幅升級,從方案上演進(jìn)為了數(shù)據(jù)質(zhì)量驅(qū)動的學(xué)習(xí)策略快慢思考切換的范圍也從數(shù)學(xué)任務(wù)擴(kuò)展到了一般任務(wù)。

第一階段:教模型區(qū)分快慢。

在這個“低難度課程”階段,研究團(tuán)隊(duì)首先通過數(shù)據(jù)構(gòu)造,讓模型明確什么是“快思考”、什么是“慢思考”。

他們精心構(gòu)建了一個混合訓(xùn)練數(shù)據(jù)集:在用戶提問(Prompt)中附加特殊的標(biāo)識符,直接告訴模型該用快思考還是慢思考來回答。通過在這個帶有明確指示信號的數(shù)據(jù)上訓(xùn)練,模型學(xué)會將特定輸入模式與對應(yīng)的思維方式、回答風(fēng)格建立關(guān)聯(lián)。

可以說,這一步猶如給模型裝上“手動變速箱”,明確劃定了兩種思考模式的界限,是一堂扎實(shí)的“熱身課”,確保模型具備基本的快慢思維切換意識。

第二階段:自主學(xué)會切換。

當(dāng)模型已經(jīng)掌握了顯式控制的本領(lǐng)后,就進(jìn)入更具挑戰(zhàn)性的“進(jìn)階課程”。這一階段不再提供外部快 / 慢提示,而是要求模型根據(jù)問題本身自行判斷何時(shí)該快、何時(shí)該慢。

從簡單樣本過渡到復(fù)雜樣本,團(tuán)隊(duì)設(shè)計(jì)了一套數(shù)據(jù)質(zhì)量驅(qū)動的自優(yōu)化訓(xùn)練策略:先用第一階段訓(xùn)練好的模型作為“教練”,為同一問題生成多樣化的解答鏈路,然后從中挑選質(zhì)量最高的解答,再以這些優(yōu)質(zhì)解答來有選擇地微調(diào)模型。

通過這種“從優(yōu)錄取”的訓(xùn)練方式,模型逐漸學(xué)會了從復(fù)雜問題中自主推斷最優(yōu)思考路徑,無需明確指令就能自動在快 / 慢模式間切換??梢哉f,這一步為模型裝上了智能“自動變速箱”—— 它告別了對外部指令的依賴,實(shí)現(xiàn)了內(nèi)在驅(qū)動的決策。這一階段的訓(xùn)練難度顯著高于第一階段,因?yàn)槟P托枰I(lǐng)悟更深層的隱含邏輯,而不再是簡單遵循提示符號。

經(jīng)過兩個階段環(huán)環(huán)相扣的“課程學(xué)習(xí)”,openPangu-Embedded-7B-v1.1 完成了從外部信號驅(qū)動的顯式切換到內(nèi)部能力驅(qū)動的隱式切換的蛻變,大幅提升了模型在復(fù)雜推理任務(wù)中的靈活性與自主性。

最終,經(jīng)過這一套訓(xùn)練流程,新模型成功解鎖了快慢思考模式的雙模式切換 —— 既支持用戶手動指定思考模式,也能在無需人為干預(yù)下自動選擇最合適的推理方式。

快慢自適應(yīng)減少簡單任務(wù) Token 量三到五成

如此復(fù)雜的訓(xùn)練設(shè)計(jì),最終效果如何?openPangu-Embedded-7B-v1.1 在多個權(quán)威評測上交出了令人欣喜的答卷。

首先是精度的大幅提升。相較前代模型 v1 版本,新模型在通用、數(shù)學(xué)、代碼等各類數(shù)據(jù)集上全面超越了自己過去的成績。其中手的數(shù)學(xué)難題數(shù)據(jù)集(如 AIME 挑戰(zhàn))上,v1.1 版本取得了遠(yuǎn)超 v1 的領(lǐng)先表現(xiàn)

更難得的是,在采用自適應(yīng)快慢思考模式下,新模型在復(fù)雜任務(wù)上的準(zhǔn)確率依然保持與純“慢思考”情況下幾乎相同的水準(zhǔn),即引入自動切換并沒有犧牲精度。

其次在響應(yīng)效率上,成果同樣令人眼前一亮。對于簡單問題,openPangu-Embedded-7B-v1.1 能夠自動切換為快思考模式,大幅縮短不必要的冗長推理過程。

在某些基準(zhǔn)測試中(例如中文綜合知識測試集 CMMLU),新模型在保持精度基本不變的前提下,平均輸出的思維鏈長度減少了近 50%!也就是說,同一道簡單題,它給出的解釋步驟幾乎縮短了一半,直接帶來響應(yīng)效率的翻倍提升。

與此同時(shí),對于諸如 AIME、LiveCodeBench 這類復(fù)雜度極高的難題,模型依然會老老實(shí)實(shí)“慢思、給出詳盡的逐步推理,從而確保精度與只用慢思考模型相當(dāng)。簡單題不啰嗦、難題不放棄,這種智能切換讓模型在速度和精度之間取得了很好的平衡。

邊緣 AI 部署利器:1B 小模型性能拉滿

值得驚喜的是,openPangu 系列近期不僅升級了 7B 模型,還推出了一款專為邊緣 AI 部署優(yōu)化的輕量級模型 ——openPangu-Embedded-1B。

顧名思義,它只有十億參數(shù),但卻通過多項(xiàng)技術(shù)加持,實(shí)現(xiàn)了“小體量也有大能量”。

在軟硬件協(xié)同設(shè)計(jì)方面,openPangu-Embedded-1B 針對華為昇騰端側(cè) AI 硬件進(jìn)行了架構(gòu)優(yōu)化,充分利用芯片特性,大幅降低推理延遲、提升資源利用率。

與此同時(shí),華為團(tuán)隊(duì)采用多階段訓(xùn)練策略(包括從零開始的預(yù)訓(xùn)練、多樣化數(shù)據(jù)的課程式微調(diào)、離線同策略知識蒸餾以及多源獎勵的強(qiáng)化學(xué)習(xí)等),全面挖掘模型潛力,顯著增強(qiáng)了模型在各類任務(wù)上的表現(xiàn)。

得益于以上創(chuàng)新,這款僅 10 億參數(shù)的小模型取得了性能與效率的高度協(xié)同,在多個權(quán)威評測中成績亮眼。

據(jù)公開數(shù)據(jù)顯示,openPangu-Embedded-1B 創(chuàng)下了國內(nèi) 1B 級模型的新標(biāo)桿,其整體平均成績不僅全面領(lǐng)先其他同規(guī)模模型,甚至追平了更大參數(shù)模型 Qwen3-1.7B 的水平。

這充分體現(xiàn)了出色的參數(shù)級性能比:用更小的模型實(shí)現(xiàn)了媲美大模型的效果,為國產(chǎn)自研大模型在資源受限場景下的探索提供了新的方向。

綜上,華為 openPangu-Embedded-7B-v1.1 的發(fā)布為當(dāng)前熱度較高的大模型領(lǐng)域帶來了不一樣的思路。作為參數(shù)規(guī)模為 7B 的輕量級模型,它通過漸進(jìn)式微調(diào)和雙階段訓(xùn)練方法,實(shí)現(xiàn)了快慢思考模式的自由切換,在效率與精度之間找到了較好的平衡點(diǎn)。

無論是面向邊緣部署需求的小模型,還是追求復(fù)雜推理能力的通用模型,盤古系列的持續(xù)演進(jìn)都展現(xiàn)出國產(chǎn)大模型的創(chuàng)新活力。

未來,這一具備“快慢思考”特性的模型,有望在更多實(shí)際應(yīng)用場景中發(fā)揮價(jià)值。

項(xiàng)目已在 GitCode 開源:

https://gitcode.com/ascend-tribe/openpangu-embedded-7b-v1.1

本文來自微信公眾號:量子位(ID:QbitAI),作者:允中,原標(biāo)題《快慢思考不用二選一!華為開源 7B 模型實(shí)現(xiàn)自由切,精度不變思維鏈減近 50%》

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:華為開源,華為模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知