在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

昆侖萬(wàn)維推出 Skywork-OR1 系列模型:全面開(kāi)放、免費(fèi)使用、完全開(kāi)源

2025/4/13 21:53:09 來(lái)源:IT之家 作者:歸瀧 責(zé)編:歸瀧

IT之家 4 月 13 日消息,昆侖萬(wàn)維今日發(fā)文宣布,天工團(tuán)隊(duì)在首款中文邏輯推理大模型 Skywork-o1 基礎(chǔ)上迭代優(yōu)化,推出了全新升級(jí)的 Skywork-OR1(Open Reasoner 1) 系列模型。

據(jù)介紹,該系列模型在同等參數(shù)規(guī)模下實(shí)現(xiàn)了業(yè)界領(lǐng)先推理性能,進(jìn)一步突破了大模型在邏輯理解與復(fù)雜任務(wù)求解方面的能力瓶頸。同時(shí),Skywork-OR1 將全面開(kāi)放、免費(fèi)使用,以完全開(kāi)源的形式回饋開(kāi)發(fā)者社區(qū)。

此次開(kāi)源涵蓋三款高性能模型,包括:

  • Skywork-OR1-Math-7B:聚焦數(shù)學(xué)領(lǐng)域的專項(xiàng)模型,同時(shí)也具有較強(qiáng)的代碼能力。

  • Skywork-OR1-7B-Preview:融合數(shù)學(xué)與代碼能力、兼具通用性與專業(yè)性的通用模型。

  • Skywork-OR1-32B-Preview:面向更高復(fù)雜度任務(wù)、具備更強(qiáng)推理能力的旗艦版本。

昆侖萬(wàn)維官方表示,此次發(fā)布的 Skywork-OR1 系列采用業(yè)界最高透明度的開(kāi)源策略:全面開(kāi)源模型權(quán)重、訓(xùn)練數(shù)據(jù)完整訓(xùn)練代碼,所有資源均已上傳至 GitHub 和 Huggingface 平臺(tái)。配套的技術(shù)博客已發(fā)布于 Notion 平臺(tái),詳細(xì)闡述了數(shù)據(jù)處理流程、訓(xùn)練方法和關(guān)鍵技術(shù)發(fā)現(xiàn),為社區(qū)提供了完全可復(fù)現(xiàn)的實(shí)踐參考。

IT之家從昆侖萬(wàn)維官方獲悉,目前 Skywork-OR1-7B 和 Skywork-OR1-32B 的能力還在持續(xù)提升,在兩周內(nèi)還會(huì)發(fā)布兩個(gè)模型的正式版本,同時(shí)也會(huì)推出更為系統(tǒng)詳盡的技術(shù)報(bào)告,進(jìn)一步分享其在推理模型訓(xùn)練中的經(jīng)驗(yàn)與洞察。

Skywork-OR1 系列開(kāi)源地址:

昆侖萬(wàn)維天工團(tuán)隊(duì)更多開(kāi)源項(xiàng)目:

在評(píng)測(cè)方面,Skywork-OR1 系列模型引入了 avg@k 作為核心評(píng)估指標(biāo),用于衡量模型在進(jìn)行 k 次嘗試時(shí)成功解決問(wèn)題的平均表現(xiàn)。相較于傳統(tǒng)的 pass@k 指標(biāo)僅關(guān)注是否“至少一次成功”,avg@k 能更細(xì)致地捕捉模型在多輪生成過(guò)程中的穩(wěn)定性與整體推理能力,從而更全面反映其真實(shí)性能水平與實(shí)用價(jià)值。

圖片

圖片

在數(shù)學(xué)推理任務(wù)中:

  • 通用模型 Skywork-OR1-7B-PreviewSkywork-OR1-32B-Preview 在 AIME24 與 AIME25 數(shù)據(jù)集上均實(shí)現(xiàn)了同參數(shù)規(guī)模下的最優(yōu)表現(xiàn),展現(xiàn)出強(qiáng)大的數(shù)學(xué)推理能力。

  • 針對(duì)數(shù)學(xué)場(chǎng)景深度優(yōu)化的專項(xiàng)模型 Skywork-OR1-Math-7B 更是在 AIME24 和 AIME25 上分別取得 69.852.3 的高分,遠(yuǎn)超當(dāng)前主流 7B 級(jí)別模型,充分驗(yàn)證了其在高階數(shù)學(xué)推理任務(wù)中的專業(yè)優(yōu)勢(shì)。

  • Skywork-OR1-32B-Preview 在所有 benchmark 上均實(shí)現(xiàn)了對(duì) QwQ-32B 的超越,并在更難的 AIME25 上基本與 R1 持平。

在競(jìng)賽編程任務(wù)中:

  • 通用模型 Skywork-OR1-7B-PreviewSkywork-OR1-32B-PreviewLiveCodeBench 數(shù)據(jù)集上均取得了同等參數(shù)規(guī)模下的最優(yōu)性能。

  • Skywork-OR1-32B-Preview 表現(xiàn)尤為突出,其代碼生成與問(wèn)題求解能力已接近 DeepSeek-R1(參數(shù)規(guī)模高達(dá) 671B),在大幅壓縮模型體量的同時(shí)實(shí)現(xiàn)了卓越的性價(jià)比,充分展現(xiàn)出天工團(tuán)隊(duì)訓(xùn)練策略的先進(jìn)性。

其中 Skywork-OR1-Math-7B 表現(xiàn)尤為亮眼,作為一個(gè)專注于數(shù)學(xué)推理能力的 7B 參數(shù)模型,通過(guò)多階段 GRPO 訓(xùn)練在復(fù)雜數(shù)學(xué)問(wèn)題上實(shí)現(xiàn)了卓越表現(xiàn),同時(shí)在代碼任務(wù)上也有較強(qiáng)的泛化能力。下圖是該模型在 AIME24 上的訓(xùn)練準(zhǔn)確率曲線,清晰呈現(xiàn)了多階段訓(xùn)練過(guò)程中性能的穩(wěn)定提升軌跡。

圖片

Skywork-OR1-Math-7B 最終模型在 AIME24 和 AIME24 上分別達(dá)到 69.8% 和 52.3%,超越了 OpenAI-o3-mini (low),達(dá)到了當(dāng)前尺寸 SOTA 性能。值得注意的是,盡管該模型訓(xùn)練過(guò)程中未專門(mén)針對(duì)代碼能力進(jìn)行優(yōu)化,但在代碼評(píng)測(cè)基準(zhǔn)上 Livecodebench 從 37.6% 提升到 43.6%,相比基線模型的顯著提升,這也表明我們的訓(xùn)練方法具有較好的領(lǐng)域泛化性。

圖片

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知