ITCOW牛新网 12月12日消息,OpenAI 今日正式发布了其最新一代人工智能模型 GPT-5.2,该系列包括 Instant、Thinking 和 Pro 三个版本,旨在为专业工作和持久运行的智能体提供更强支持。据称,这是 OpenAI 迄今为止最强大的模型系列,特别针对知识型工作任务进行了优化。

据ITCOW牛新网了解,GPT-5.2 在多项专业基准测试中表现突出。在 GDPval 评测中,该模型在涵盖 44 个职业的知识型工作任务上,有 70.9% 的项目达到或超过了人类专家水平,任务完成速度比专家快 11 倍以上,而成本不到其 1%。在软件工程方面,GPT-5.2 Thinking 在 SWE-bench Pro 测试中取得了 55.6% 的成绩,在 SWE-bench Verified 中更是达到了 80%。

新模型在长上下文理解方面也有显著提升。在 OpenAI MRCRv2 测试中,GPT-5.2 Thinking 在 4-needle 变体(最长 256k Token)中实现了接近 100% 的准确率。这使得它能够更好地处理长文档、合同、研究论文等多文件项目。


在视觉能力上,GPT-5.2 在图表推理和 GUI 界面理解方面的错误率比前代模型降低约一半。在工具调用方面,新模型在 Tau2-bench Telecom 测试中取得了 98.7% 的优秀成绩,展示了其在多轮任务中可靠使用工具的能力。
_软件工程-1024x759.png)
在科学与数学领域,GPT-5.2 Pro 在 GPQA Diamond 测试中达到 93.2%,在专家级数学评测 FrontierMath 中解决了 40.3% 的问题。在抽象推理测试 ARC-AGI-2 中,GPT-5.2 Thinking 和 Pro 分别取得了 52.9% 和 54.2% 的成绩。

目前,GPT-5.2 已开始向 ChatGPT 的付费用户(Plus、Pro、Go、Business 和 Enterprise)逐步推出,API 版本也已向所有开发者开放。价格方面,GPT-5.2 的输入 Token 为每百万 1.75 美元,输出 Token 为每百万 14 美元。

安全方面,GPT-5.2 延续了安全补全研究,在心理健康相关对话中的回应能力有所改进。同时,OpenAI 正在逐步上线年龄预测模型,为未成年用户提供内容保护。
多家合作伙伴报告了 GPT-5.2 的实际应用效果。Triple Whale 首席执行官 AJ Orbach 表示:“GPT-5.2 为我们开启了完整的架构转型。我们将一个脆弱的多智能体系统整合为一个拥有 20 多个工具的超级智能体。”Windsurf 首席执行官 Jeff Wang 也指出:“GPT-5.2 代表了自 GPT-5 以来在智能体编码上的最大飞跃。”


