在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟攜手清華、北大推出獎(jiǎng)勵(lì)推理模型:根據(jù) AI 任務(wù)復(fù)雜性動(dòng)態(tài)分配計(jì)算資源

2025/5/27 14:17:41 來(lái)源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 5 月 27 日消息,科技媒體 marktechpost 今天(5 月 27 日)發(fā)布博文,報(bào)道稱微軟研究院聯(lián)合清華大學(xué)、北京大學(xué)組建團(tuán)隊(duì),推出獎(jiǎng)勵(lì)推理模型(Reward Reasoning Models,RRMs),通過(guò)顯式推理過(guò)程動(dòng)態(tài)分配計(jì)算資源,提升復(fù)雜任務(wù)評(píng)估效果。

IT之家援引博文介紹,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)已成為大語(yǔ)言模型(LLM)后訓(xùn)練的核心方法,通過(guò)人類反饋(RLHF)或可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)提供監(jiān)督信號(hào)。

然而,RLVR 在數(shù)學(xué)推理中雖有潛力,卻因依賴可驗(yàn)證答案的訓(xùn)練查詢而受限,難以應(yīng)用于通用領(lǐng)域的大規(guī)模訓(xùn)練。

此外,現(xiàn)有獎(jiǎng)勵(lì)模型分為標(biāo)量型和生成型兩大類,均無(wú)法有效擴(kuò)展測(cè)試時(shí)的計(jì)算資源。當(dāng)前方法對(duì)所有輸入統(tǒng)一分配計(jì)算資源,缺乏針對(duì)復(fù)雜查詢進(jìn)行細(xì)致分析的能力,導(dǎo)致評(píng)估效果不佳。

為解決上述問(wèn)題,微軟研究院、清華大學(xué)和北京大學(xué)的研究者聯(lián)手推出獎(jiǎng)勵(lì)推理模型(RRMs)。RRMs 在給出最終獎(jiǎng)勵(lì)前執(zhí)行顯式推理過(guò)程,能夠根據(jù)任務(wù)復(fù)雜性自適應(yīng)分配額外計(jì)算資源。

這種方法通過(guò)“思維鏈”(Chain-of-Thought)推理,針對(duì)獎(jiǎng)勵(lì)不明顯的復(fù)雜查詢投入更多測(cè)試時(shí)計(jì)算資源。

RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架構(gòu),將獎(jiǎng)勵(lì)建模轉(zhuǎn)化為文本補(bǔ)全任務(wù),生成推理過(guò)程后給出最終判斷。

研究團(tuán)隊(duì)利用 RewardBench 庫(kù)進(jìn)行系統(tǒng)分析,評(píng)估指標(biāo)包括指令遵循性、幫助性、準(zhǔn)確性、無(wú)害性和細(xì)節(jié)水平。RRMs 還支持多響應(yīng)評(píng)估,通過(guò) ELO 評(píng)分系統(tǒng)和淘汰賽機(jī)制,結(jié)合多數(shù)投票提升計(jì)算資源利用率。

測(cè)試結(jié)果顯示,RRMs 在 RewardBench 和 PandaLM Test 基準(zhǔn)測(cè)試中表現(xiàn)突出。其中,RRM-32B 在推理類別中達(dá)到 98.6% 的準(zhǔn)確率,與使用相同數(shù)據(jù)訓(xùn)練的 DirectJudge 模型相比,RRMs 展現(xiàn)出顯著性能差距,證明其在復(fù)雜查詢中有效利用測(cè)試時(shí)計(jì)算資源。

在獎(jiǎng)勵(lì)引導(dǎo)的最佳 N 推理(Best-of-N Inference)和后訓(xùn)練反饋中,RRMs 超越所有基線模型,且進(jìn)一步提升多數(shù)投票機(jī)制效率。

研究還表明,隨著模型規(guī)模從 7B、14B 到 32B 擴(kuò)展,更長(zhǎng)的推理時(shí)間始終帶來(lái)準(zhǔn)確性提升。RRMs 通過(guò)并行和順序擴(kuò)展方法高效利用計(jì)算資源,為傳統(tǒng)標(biāo)量獎(jiǎng)勵(lì)模型提供強(qiáng)大替代方案。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟清華,北大,AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知