蘋果聯(lián)合推出 AI 交錯(cuò)推理方法，Qwen2.5 模型響應(yīng)速度快 80%、準(zhǔn)確率提高 19.3%

2025/5/30 14:45:12 來(lái)源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 5 月 30 日消息，科技媒體 marktechpost 昨日（5 月 29 日）發(fā)布博文，報(bào)道稱蘋果公司攜手杜克大學(xué)，提出交錯(cuò)推理（Interleaved Reasoning）的全新強(qiáng)化學(xué)習(xí)（Reinforcement learning，RL）方法，進(jìn)一步提升大語(yǔ)言模型的推理能力。

主流大語(yǔ)言模型在處理多步復(fù)雜問(wèn)題時(shí)，常采用“先思考后回答”的長(zhǎng)鏈?zhǔn)酵评矸绞?。然而，這種方法存在兩大痛點(diǎn)：一是響應(yīng)時(shí)間過(guò)長(zhǎng)，難以滿足實(shí)時(shí)交互需求；二是早期推理步驟出錯(cuò)可能導(dǎo)致最終答案偏差。

研究人員指出，與人類在對(duì)話中隨時(shí)分享部分想法不同，模型往往等到推理全部完成才輸出結(jié)果，導(dǎo)致效率不高。

蘋果公司攜手杜克大學(xué)，研發(fā)了交錯(cuò)推理技術(shù)，讓模型在推理過(guò)程中交替進(jìn)行內(nèi)部思考和輸出中間答案（sub-answer），從而提升速度與實(shí)用性。

交錯(cuò)推理基于強(qiáng)化學(xué)習(xí)（RL）框架，采用特殊的訓(xùn)練模板，包含 <think> 和 < answer > 標(biāo)簽，確保模型在達(dá)到關(guān)鍵推理節(jié)點(diǎn)時(shí)輸出中間結(jié)果。

研究團(tuán)隊(duì)設(shè)計(jì)了基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制，包括格式、最終準(zhǔn)確率和條件性中間準(zhǔn)確率，確保模型注重整體正確性。

測(cè)試中，交錯(cuò)推理在 Qwen2.5 模型（1.5B 和 7B 參數(shù)）上表現(xiàn)優(yōu)異，響應(yīng)速度提升超 80%，準(zhǔn)確率提高高達(dá) 19.3%。

此外，該方法僅在問(wèn)答（QA）和邏輯數(shù)據(jù)集上訓(xùn)練，卻能在 MATH、GPQA、MMLU 等更具挑戰(zhàn)性的基準(zhǔn)測(cè)試中展現(xiàn)強(qiáng)大泛化能力。

研究還嘗試了多種獎(jiǎng)勵(lì)策略，如全或無(wú)、部分積分和時(shí)間折扣獎(jiǎng)勵(lì)，其中條件性和時(shí)間折扣獎(jiǎng)勵(lì)效果最佳，顯著優(yōu)于傳統(tǒng)方法。

IT之家附上參考地址

Interleaved Reasoning for Large Language Models via Reinforcement Learning

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

蘋果聯(lián)合推出 AI 交錯(cuò)推理方法，Qwen2.5 模型響應(yīng)速度快 80%、準(zhǔn)確率提高 19.3%

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

蘋果聯(lián)合推出 AI 交錯(cuò)推理方法，Qwen2.5 模型響應(yīng)速度快 80%、準(zhǔn)確率提高 19.3%

相關(guān)文章

蘋果聯(lián)合推出 AI 交錯(cuò)推理方法，Qwen2.5 模型響應(yīng)速度快 80%、準(zhǔn)確率提高 19.3%