OpenAI 推出 SWE-bench Verified 基準(zhǔn)，更準(zhǔn)確評(píng)估 AI 模型代碼生成表現(xiàn)

2024/8/15 14:34:33 來(lái)源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

感謝IT之家網(wǎng)友我搶了臺(tái) 的線索投遞！

IT之家 8 月 15 日消息，OpenAI 公司于 8 月 13 日發(fā)布新聞稿，宣布推出 SWE-bench Verified 代碼生成評(píng)估基準(zhǔn)，解決了此前的局限性問題，能夠更準(zhǔn)確地評(píng)估人工智能模型在軟件工程任務(wù)中的表現(xiàn)。

SWE-bench

IT之家注：SWE-Bench 是一個(gè)用于評(píng)估 LLM 解決 GitHub 上真實(shí)軟件問題能力的基準(zhǔn)測(cè)試數(shù)據(jù)集。

它收集了來(lái)自 12 個(gè)流行的 Python 倉(cāng)庫(kù)的 2294 個(gè) Issue-Pull Request 對(duì)。在測(cè)試時(shí)，LLM 會(huì)拿到一個(gè)代碼庫(kù)和 issue 描述，然后生成一個(gè)補(bǔ)丁來(lái)解決 issue 描述的問題。

該基準(zhǔn)使用兩種類型的測(cè)試：

FAIL_TO_PASS 測(cè)試用于檢查問題是否已得到解決
PASS_TO_PASS 測(cè)試用于確保代碼更改不會(huì)破壞現(xiàn)有功能。

SWE-bench 的問題

OpenAI 指出了 SWE-bench 的三個(gè)主要問題：

單元測(cè)試過(guò)于嚴(yán)格：用于評(píng)估解決方案正確性的單元測(cè)試往往過(guò)于具體，有時(shí)甚至與問題無(wú)關(guān)，這可能導(dǎo)致拒絕正確的解決方案。
問題描述不明確：許多樣本的問題描述不夠具體，導(dǎo)致問題是什么以及應(yīng)如何解決含糊不清。
開發(fā)環(huán)境難以設(shè)置：有時(shí)很難可靠地為代理設(shè)置 SWE-bench 開發(fā)環(huán)境，從而無(wú)意中導(dǎo)致單元測(cè)試失敗。

SWE-bench Verified

SWE-bench Verified 的主要改進(jìn)之一是使用容器化 Docker 環(huán)境開發(fā)了新的評(píng)估工具包。

這一改進(jìn)旨在使評(píng)估過(guò)程更加一致和可靠，降低與開發(fā)環(huán)境設(shè)置相關(guān)的問題發(fā)生的可能性。

例如，GPT-4o 解決了 33.2% 的樣本，而表現(xiàn)最佳的開源代理框架 Agentless 的得分翻了一番，達(dá)到 16%。

性能的提高表明，SWE-bench Verified 更好地捕捉到了人工智能模型在軟件工程任務(wù)中的真正能力。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

OpenAI 推出 SWE-bench Verified 基準(zhǔn)，更準(zhǔn)確評(píng)估 AI 模型代碼生成表現(xiàn)

SWE-bench

SWE-bench 的問題

SWE-bench Verified

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

OpenAI 推出 SWE-bench Verified 基準(zhǔn)，更準(zhǔn)確評(píng)估 AI 模型代碼生成表現(xiàn)

SWE-bench

SWE-bench 的問題

SWE-bench Verified

相關(guān)文章

OpenAI 推出 SWE-bench Verified 基準(zhǔn)，更準(zhǔn)確評(píng)估 AI 模型代碼生成表現(xiàn)