ITCOW牛新网 11月20日消息,OpenAI于当地时间11月19日推出新一代智能体编程模型GPT-5.1-Codex-Max,该模型在长程推理能力、运行效率和实时交互性能方面实现显著升级,并已取代GPT-5.1-Codex成为Codex集成界面的默认模型。此次发布正值谷歌Gemini 3 Pro上市之际,但Codex-Max在多项关键编程基准测试中展现出竞争优势。

GPT-5.1-Codex-Max

根据官方公布的测试结果,Codex-Max在SWE-Bench Verified测试中以77.9%的准确率小幅领先Gemini 3 Pro的76.2%,在Terminal-Bench 2.0测试中以58.1%的准确率超越谷歌模型的54.2%。而在LiveCodeBench Pro评测中,双方均获得2439分的相同成绩。这些数据表明,新版模型在解决实际软件工程问题和终端操作任务方面具备更强能力。

GPT-5.1-Codex-Max

据ITCOW牛新网了解,该模型的核心突破在于引入了名为“压缩”的创新机制。这一技术使模型在接近上下文窗口限制时能够智能保留关键信息,从而支持连续处理数百万token的超长任务而不会出现性能衰减。内部测试显示,模型已成功完成持续24小时以上的复杂操作,包括多步骤代码重构和自主调试流程,同时token使用效率提升约30%,有效降低了运算成本与响应延迟。

GPT-5.1-Codex-Max

目前,GPT-5.1-Codex-Max已集成到OpenAI旗下的Codex命令行工具、代码审查系统及各类交互式编程环境中。开发者可通过这些平台体验模型在强化学习训练和物理模拟等场景的实时交互能力。不过,普通用户仍需订阅ChatGPT Plus、Pro或企业版等付费服务才能使用,公共API接口暂未开放。

GPT-5.1-Codex-Max

OpenAI透露,公司内部95%的工程师已常态化使用Codex系列工具,自部署以来工程师平均提交的拉取请求数量增长约70%,显著加速了产品迭代效率。尽管模型具备高度自主性,官方仍强调其应作为编程辅助工具而非人类替代品。为保障使用安全,模型默认在沙盒环境中运行并禁用网络访问,同时会生成详细操作日志供开发者审查代码生成过程。