OpenAI发布GPT-5.2：专业工作AI模型实现多项突破，在44个职业任务中达到专家水平

ITCOW牛新网 12月12日消息，OpenAI 今日正式发布了其最新一代人工智能模型 GPT-5.2，该系列包括 Instant、Thinking 和 Pro 三个版本，旨在为专业工作和持久运行的智能体提供更强支持。据称，这是 OpenAI 迄今为止最强大的模型系列，特别针对知识型工作任务进行了优化。

据ITCOW牛新网了解，GPT-5.2 在多项专业基准测试中表现突出。在 GDPval 评测中，该模型在涵盖 44 个职业的知识型工作任务上，有 70.9% 的项目达到或超过了人类专家水平，任务完成速度比专家快 11 倍以上，而成本不到其 1%。在软件工程方面，GPT-5.2 Thinking 在 SWE-bench Pro 测试中取得了 55.6% 的成绩，在 SWE-bench Verified 中更是达到了 80%。

新模型在长上下文理解方面也有显著提升。在 OpenAI MRCRv2 测试中，GPT-5.2 Thinking 在 4-needle 变体（最长 256k Token）中实现了接近 100% 的准确率。这使得它能够更好地处理长文档、合同、研究论文等多文件项目。

在视觉能力上，GPT-5.2 在图表推理和 GUI 界面理解方面的错误率比前代模型降低约一半。在工具调用方面，新模型在 Tau2-bench Telecom 测试中取得了 98.7% 的优秀成绩，展示了其在多轮任务中可靠使用工具的能力。

在科学与数学领域，GPT-5.2 Pro 在 GPQA Diamond 测试中达到 93.2%，在专家级数学评测 FrontierMath 中解决了 40.3% 的问题。在抽象推理测试 ARC-AGI-2 中，GPT-5.2 Thinking 和 Pro 分别取得了 52.9% 和 54.2% 的成绩。

目前，GPT-5.2 已开始向 ChatGPT 的付费用户（Plus、Pro、Go、Business 和 Enterprise）逐步推出，API 版本也已向所有开发者开放。价格方面，GPT-5.2 的输入 Token 为每百万 1.75 美元，输出 Token 为每百万 14 美元。

安全方面，GPT-5.2 延续了安全补全研究，在心理健康相关对话中的回应能力有所改进。同时，OpenAI 正在逐步上线年龄预测模型，为未成年用户提供内容保护。

多家合作伙伴报告了 GPT-5.2 的实际应用效果。Triple Whale 首席执行官 AJ Orbach 表示：“GPT-5.2 为我们开启了完整的架构转型。我们将一个脆弱的多智能体系统整合为一个拥有 20 多个工具的超级智能体。”Windsurf 首席执行官 Jeff Wang 也指出：“GPT-5.2 代表了自 GPT-5 以来在智能体编码上的最大飞跃。”

OpenAI发布GPT-5.2：专业工作AI模型实现多项突破，在44个职业任务中达到专家水平

相关文章

阿里云手机版“OpenClaw龙虾”应用“JVS Claw”上线App Store

腾讯 SkillHub 上线引争议：被指“抄袭”数据，官方回应称是本地镜像

全球首款手机“龙虾”应用上线，百度红手指Operator打通App自动化操作

更多资讯

阿里云手机版“OpenClaw龙虾”应用“JVS Claw”上线App Store

京东云“养数字龙虾送实体虾”，还送百万Tokens

Windows 11 RP通道推送预览版更新：讲述人接入Copilot、SAC可开关、新增设备信息卡

国家工业信息安全发展研究中心发布《关于工业领域OpenClaw应用的风险预警通报》