昆侖萬(wàn)維推出 Skywork-OR1 系列模型：全面開(kāi)放、免費(fèi)使用、完全開(kāi)源

2025/4/13 21:53:09 來(lái)源：IT之家作者：歸瀧責(zé)編：歸瀧

評(píng)論：

IT之家 4 月 13 日消息，昆侖萬(wàn)維今日發(fā)文宣布，天工團(tuán)隊(duì)在首款中文邏輯推理大模型 Skywork-o1 基礎(chǔ)上迭代優(yōu)化，推出了全新升級(jí)的 Skywork-OR1(Open Reasoner 1) 系列模型。

據(jù)介紹，該系列模型在同等參數(shù)規(guī)模下實(shí)現(xiàn)了業(yè)界領(lǐng)先推理性能，進(jìn)一步突破了大模型在邏輯理解與復(fù)雜任務(wù)求解方面的能力瓶頸。同時(shí)，Skywork-OR1 將全面開(kāi)放、免費(fèi)使用，以完全開(kāi)源的形式回饋開(kāi)發(fā)者社區(qū)。

此次開(kāi)源涵蓋三款高性能模型，包括：

Skywork-OR1-Math-7B：聚焦數(shù)學(xué)領(lǐng)域的專項(xiàng)模型，同時(shí)也具有較強(qiáng)的代碼能力。
Skywork-OR1-7B-Preview：融合數(shù)學(xué)與代碼能力、兼具通用性與專業(yè)性的通用模型。
Skywork-OR1-32B-Preview：面向更高復(fù)雜度任務(wù)、具備更強(qiáng)推理能力的旗艦版本。

昆侖萬(wàn)維官方表示，此次發(fā)布的 Skywork-OR1 系列采用業(yè)界最高透明度的開(kāi)源策略：全面開(kāi)源模型權(quán)重、訓(xùn)練數(shù)據(jù)集和完整訓(xùn)練代碼，所有資源均已上傳至 GitHub 和 Huggingface 平臺(tái)。配套的技術(shù)博客已發(fā)布于 Notion 平臺(tái)，詳細(xì)闡述了數(shù)據(jù)處理流程、訓(xùn)練方法和關(guān)鍵技術(shù)發(fā)現(xiàn)，為社區(qū)提供了完全可復(fù)現(xiàn)的實(shí)踐參考。

IT之家從昆侖萬(wàn)維官方獲悉，目前 Skywork-OR1-7B 和 Skywork-OR1-32B 的能力還在持續(xù)提升，在兩周內(nèi)還會(huì)發(fā)布兩個(gè)模型的正式版本，同時(shí)也會(huì)推出更為系統(tǒng)詳盡的技術(shù)報(bào)告，進(jìn)一步分享其在推理模型訓(xùn)練中的經(jīng)驗(yàn)與洞察。

Skywork-OR1 系列開(kāi)源地址：

https://github.com/SkyworkAI/Skywork-OR1

昆侖萬(wàn)維天工團(tuán)隊(duì)更多開(kāi)源項(xiàng)目：

https://huggingface.co/Skywork

在評(píng)測(cè)方面，Skywork-OR1 系列模型引入了 avg@k 作為核心評(píng)估指標(biāo)，用于衡量模型在進(jìn)行 k 次嘗試時(shí)成功解決問(wèn)題的平均表現(xiàn)。相較于傳統(tǒng)的 pass@k 指標(biāo)僅關(guān)注是否“至少一次成功”，avg@k 能更細(xì)致地捕捉模型在多輪生成過(guò)程中的穩(wěn)定性與整體推理能力，從而更全面反映其真實(shí)性能水平與實(shí)用價(jià)值。
在數(shù)學(xué)推理任務(wù)中：
通用模型 Skywork-OR1-7B-Preview 和 Skywork-OR1-32B-Preview 在 AIME24 與 AIME25 數(shù)據(jù)集上均實(shí)現(xiàn)了同參數(shù)規(guī)模下的最優(yōu)表現(xiàn)，展現(xiàn)出強(qiáng)大的數(shù)學(xué)推理能力。
針對(duì)數(shù)學(xué)場(chǎng)景深度優(yōu)化的專項(xiàng)模型 Skywork-OR1-Math-7B 更是在 AIME24 和 AIME25 上分別取得 69.8 與 52.3 的高分，遠(yuǎn)超當(dāng)前主流 7B 級(jí)別模型，充分驗(yàn)證了其在高階數(shù)學(xué)推理任務(wù)中的專業(yè)優(yōu)勢(shì)。
Skywork-OR1-32B-Preview 在所有 benchmark 上均實(shí)現(xiàn)了對(duì) QwQ-32B 的超越，并在更難的 AIME25 上基本與 R1 持平。
在競(jìng)賽編程任務(wù)中：
通用模型 Skywork-OR1-7B-Preview 與 Skywork-OR1-32B-Preview 在 LiveCodeBench 數(shù)據(jù)集上均取得了同等參數(shù)規(guī)模下的最優(yōu)性能。
Skywork-OR1-32B-Preview 表現(xiàn)尤為突出，其代碼生成與問(wèn)題求解能力已接近 DeepSeek-R1（參數(shù)規(guī)模高達(dá) 671B），在大幅壓縮模型體量的同時(shí)實(shí)現(xiàn)了卓越的性價(jià)比，充分展現(xiàn)出天工團(tuán)隊(duì)訓(xùn)練策略的先進(jìn)性。
其中 Skywork-OR1-Math-7B 表現(xiàn)尤為亮眼，作為一個(gè)專注于數(shù)學(xué)推理能力的 7B 參數(shù)模型，通過(guò)多階段 GRPO 訓(xùn)練在復(fù)雜數(shù)學(xué)問(wèn)題上實(shí)現(xiàn)了卓越表現(xiàn)，同時(shí)在代碼任務(wù)上也有較強(qiáng)的泛化能力。下圖是該模型在 AIME24 上的訓(xùn)練準(zhǔn)確率曲線，清晰呈現(xiàn)了多階段訓(xùn)練過(guò)程中性能的穩(wěn)定提升軌跡。
Skywork-OR1-Math-7B 最終模型在 AIME24 和 AIME24 上分別達(dá)到 69.8% 和 52.3%，超越了 OpenAI-o3-mini (low)，達(dá)到了當(dāng)前尺寸 SOTA 性能。值得注意的是，盡管該模型訓(xùn)練過(guò)程中未專門(mén)針對(duì)代碼能力進(jìn)行優(yōu)化，但在代碼評(píng)測(cè)基準(zhǔn)上 Livecodebench 從 37.6% 提升到 43.6%，相比基線模型的顯著提升，這也表明我們的訓(xùn)練方法具有較好的領(lǐng)域泛化性。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

昆侖萬(wàn)維推出 Skywork-OR1 系列模型：全面開(kāi)放、免費(fèi)使用、完全開(kāi)源

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

昆侖萬(wàn)維推出 Skywork-OR1 系列模型：全面開(kāi)放、免費(fèi)使用、完全開(kāi)源

相關(guān)文章

昆侖萬(wàn)維推出 Skywork-OR1 系列模型：全面開(kāi)放、免費(fèi)使用、完全開(kāi)源