OpenAI 發(fā)布最強編程模型 GPT-5.1-Codex-Max：AI 程序員能“通宵”，性能跑分反超谷歌 Gemini

2025/11/20 7:23:31 來源：IT之家作者：故淵責編：故淵

評論：

感謝IT之家網友 yfme、茵蒂克絲、小星_14、補藥吖的線索投遞！

IT之家 11 月 20 日消息，OpenAI 昨日（11 月 19 日）發(fā)布博文，宣布推出 GPT-5.1-Codex-Max 智能體編程模型，顯著提升了長遠推理能力、效率和實時交互能力。此外該模型將取代 GPT-5.1-Codex，成為 Codex 集成界面上的默認模型。

IT之家援引博文介紹，此次發(fā)布緊隨谷歌 Gemini 3 Pro 之后，但在多個關鍵編程基準測試中，Codex-Max 展現(xiàn)出更強的實力。例如，在衡量解決實際軟件問題的 SWE-Bench Verified 測試中，Codex-Max 以 77.9% 的準確率小幅領先于 Gemini 3 Pro 的 76.2%。

OpenAI 發(fā)布最強編程模型 GPT-5.1-Codex-Max：AI 程序員能“通宵”，性能跑分反超谷歌 Gemini

Codex-Max 在 Terminal-Bench 2.0 測試中也領先，準確率達到 58.1%，而 Gemini 的準確率為 54.2%；在 LiveCodeBench Pro（一項競爭激烈的編碼 Elo 基準測試）測試中，它的得分與 Gemini 的 2439 分持平。

OpenAI 發(fā)布最強編程模型 GPT-5.1-Codex-Max：AI 程序員能“通宵”，性能跑分反超谷歌 Gemini

GPT-5.1-Codex-Max 的一項重大架構升級是引入了名為“壓縮”（Compaction）的機制。該機制允許模型在接近其上下文窗口限制時，智能地保留關鍵上下文信息并丟棄無關細節(jié)，從而實現(xiàn)跨越數(shù)百萬 token 的連續(xù)工作而不會出現(xiàn)性能下降。

OpenAI 發(fā)布最強編程模型 GPT-5.1-Codex-Max：AI 程序員能“通宵”，性能跑分反超谷歌 Gemini

得益于此，該模型在內部測試中已成功完成持續(xù)超過 24 小時的復雜任務，如多步驟代碼重構和自主調試。同時，這項技術還提升了約 30% 的 token 效率，有效降低了成本與延遲。

新模型目前已集成到 OpenAI 自家的多個 Codex 開發(fā)環(huán)境中，包括其官方命令行工具（Codex CLI）、內部代碼審查工具以及各類交互式編程環(huán)境。

開發(fā)者可以通過這些工具體驗到模型強大的實時交互能力，例如在可視化界面中進行強化學習訓練或模擬光學定律。不過，GPT-5.1-Codex-Max 尚未通過公共 API 提供，但官方表示即將開放。普通用戶則需要訂閱 ChatGPT Plus、Pro 或企業(yè)版等付費計劃才能使用。

OpenAI 透露，其內部 95% 的工程師每周都會使用 Codex，自采用以來，這些工程師平均多提交了約 70% 的拉取請求（Pull Requests），顯著提升了內部開發(fā)速度。

盡管 Codex-Max 具備高度的自主性，OpenAI 仍強調它應作為編碼“助手”而非人類的替代品。為保證透明度，模型會生成詳細的終端日志和測試引用，以便開發(fā)者審查和驗證其生成的所有代碼。此外，模型在默認情況下運行于嚴格的沙盒環(huán)境中，并禁用了網絡訪問，以確保安全性。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：AI，OpenAI

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

OpenAI 發(fā)布最強編程模型 GPT-5.1-Codex-Max：AI 程序員能“通宵”，性能跑分反超谷歌 Gemini

相關文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

OpenAI 發(fā)布最強編程模型 GPT-5.1-Codex-Max：AI 程序員能“通宵”，性能跑分反超谷歌 Gemini

相關文章

OpenAI 發(fā)布最強編程模型 GPT-5.1-Codex-Max：AI 程序員能“通宵”，性能跑分反超谷歌 Gemini