OpenAI发布GPT-5.1-Codex-Max编程模型，多项基准测试超越谷歌Gemini 3 Pro

ITCOW牛新网 11月20日消息，OpenAI于当地时间11月19日推出新一代智能体编程模型GPT-5.1-Codex-Max，该模型在长程推理能力、运行效率和实时交互性能方面实现显著升级，并已取代GPT-5.1-Codex成为Codex集成界面的默认模型。此次发布正值谷歌Gemini 3 Pro上市之际，但Codex-Max在多项关键编程基准测试中展现出竞争优势。

根据官方公布的测试结果，Codex-Max在SWE-Bench Verified测试中以77.9%的准确率小幅领先Gemini 3 Pro的76.2%，在Terminal-Bench 2.0测试中以58.1%的准确率超越谷歌模型的54.2%。而在LiveCodeBench Pro评测中，双方均获得2439分的相同成绩。这些数据表明，新版模型在解决实际软件工程问题和终端操作任务方面具备更强能力。

据ITCOW牛新网了解，该模型的核心突破在于引入了名为“压缩”的创新机制。这一技术使模型在接近上下文窗口限制时能够智能保留关键信息，从而支持连续处理数百万token的超长任务而不会出现性能衰减。内部测试显示，模型已成功完成持续24小时以上的复杂操作，包括多步骤代码重构和自主调试流程，同时token使用效率提升约30%，有效降低了运算成本与响应延迟。

目前，GPT-5.1-Codex-Max已集成到OpenAI旗下的Codex命令行工具、代码审查系统及各类交互式编程环境中。开发者可通过这些平台体验模型在强化学习训练和物理模拟等场景的实时交互能力。不过，普通用户仍需订阅ChatGPT Plus、Pro或企业版等付费服务才能使用，公共API接口暂未开放。

OpenAI透露，公司内部95%的工程师已常态化使用Codex系列工具，自部署以来工程师平均提交的拉取请求数量增长约70%，显著加速了产品迭代效率。尽管模型具备高度自主性，官方仍强调其应作为编程辅助工具而非人类替代品。为保障使用安全，模型默认在沙盒环境中运行并禁用网络访问，同时会生成详细操作日志供开发者审查代码生成过程。

OpenAI发布GPT-5.1-Codex-Max编程模型，多项基准测试超越谷歌Gemini 3 Pro

相关文章

Figma携手Codex实现设计与代码双向同步推出全新MCP服务器

中国开源AI模型全球Token使用量登顶国际需求激增终结美国主导地位

谷歌发布Nano Banana 2图像模型：修复中文乱码，支持4K输出与角色一致性

更多资讯

网络餐饮新规6月1日实施 “幽灵外卖”将被强制标识

石头科技2025年营收增长55.85% 净利润因战略投入下降31.19%

影石Insta360在美专利战大获全胜 ITC终裁认定GoPro六项指控全部不成立

豆包手机助手严正声明：网传“漏洞”系黑公关炒作，已升级防护并保留追责权