OpenAI 最新論文：o3 在 IOI 2024 嚴(yán)格規(guī)則下拿到 395.64 分達(dá)成金牌成就

2025/2/12 19:16:09 來(lái)源：新浪科技作者：文猛責(zé)編：問(wèn)舟

評(píng)論：

2 月 12 日晚間消息，在中國(guó) AI 公司的影響下，OpenAI 公開(kāi)了 O 系列強(qiáng)化學(xué)習(xí)的秘密。

今天（2 月 12 日），OpenAI 發(fā)布了關(guān)于推理模型在競(jìng)技編程中應(yīng)用的研究論文報(bào)告《Competitive Programming with Large Reasoning Models》，文中放出了 OpenAI 三個(gè)推理模型：o1、o1-ioi、o3 在 IOI（國(guó)際信息學(xué)奧林匹克競(jìng)賽）和 CodeForces（全球知名在線編程競(jìng)賽）中的成績(jī)。

論文顯示，在 IOI 2024 中，o3 在嚴(yán)格規(guī)則下拿到 395.64 分，達(dá)成金牌成就，并且在 CodeForces 上的表現(xiàn)與人類(lèi)精英選手相當(dāng)。

論文中還提到，中國(guó)的 DeepSeek-R1 和 Kimi k1.5 通過(guò)獨(dú)立研究顯示，利用思維鏈學(xué)習(xí)（COT）方法，可顯著提升模型在數(shù)學(xué)解題與編程挑戰(zhàn)中的綜合表現(xiàn)。R1、k1.5 是 DeepSeek 和 Kimi 在 1 月 20 日同時(shí)發(fā)布的新型推理模型。

該論文通過(guò)強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練的大型語(yǔ)言模型在復(fù)雜編碼和推理任務(wù)上的性能提升，比較了通用推理模型與針對(duì)特定領(lǐng)域優(yōu)化的系統(tǒng)在競(jìng)技編程中的表現(xiàn)。研究結(jié)果表明，增加強(qiáng)化學(xué)習(xí)訓(xùn)練計(jì)算和測(cè)試時(shí)計(jì)算可顯著提升模型性能，使其接近世界頂尖人類(lèi)選手，這些模型將在科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域的 AI 應(yīng)用中解鎖新的應(yīng)用體驗(yàn)。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

OpenAI 最新論文：o3 在 IOI 2024 嚴(yán)格規(guī)則下拿到 395.64 分達(dá)成金牌成就

相關(guān)文章