OpenAI发布三款实时语音模型，通过API向开发者开放

5 月 8, 2026 #ChatGPT, #GPT-Realtime, #OpenAI

ITCOW牛新网 5月8日消息，人工智能公司OpenAI今日推出了三款实时语音模型，并通过其Realtime API全面向开发者开放。此次发布的模型旨在解决语音交互中的延迟、打断处理及多语言支持等核心挑战，涵盖了从复杂智能对话、实时翻译到流式转录等多种应用场景。

据ITCOW牛新网了解，此次发布的三款模型各有侧重。GPT-Realtime-2 是首款具备GPT-5级别推理能力的语音模型，专为复杂的实时交互设计。它能够在对话过程中进行深度推理、调用工具，并自然地处理用户的打断或纠正，使开发者能够构建可执行多步骤任务的智能语音助手。在定价上，其音频输入费用为每百万Token 32美元，输出为每百万Token 64美元，缓存输入则低至每百万Token 0.4美元。

另一款模型 GPT-Realtime-Translate 专注于实时翻译功能，支持70种输入语言转换为13种输出语言，翻译速度可做到与说话者语速同步，适用于跨国会议、实时解说等场景，其计费方式为按分钟计算，每分钟费用为0.034美元。

此外，GPT-Realtime-Whisper 模型则专注于实现低延迟的流式语音转文本。它能够做到音频“随说随转”，适用于需要实时字幕生成、会议速记等场景，同样采用按分钟计费的模式，每分钟费用为0.017美元。

人工智能

OpenAI发布三款实时语音模型，通过API向开发者开放

相关文章

OpenAI：Codex 非程序员用户暴增137倍，Agent模式长时任务请求者翻近十倍

百度开源 Unlimited OCR 模型：基于 DeepSeek 架构，解决长文档“越生成越慢”问题

GitHub 六月创史上最佳月度业绩，Copilot 改按量计费后使用量激增

更多资讯

中国电信完成6G星地融合组网试验：高/中轨卫星跨轨切换时延压至26毫秒

国家邮政局推快递绿色新政：电商平台及寄递App须设“绿色包装”选项

京东宠物上线“安心宠”服务：一宠一码溯源+专车专人配送，附赠一年新宠医保

广汽×华为启境GT7猎装轿跑上市：20.99万起首搭乾崑ADS 5，玩家首发版赠黄景瑜联名礼包