ITCOW牛新网 5月8日消息,人工智能公司OpenAI今日推出了三款实时语音模型,并通过其Realtime API全面向开发者开放。此次发布的模型旨在解决语音交互中的延迟、打断处理及多语言支持等核心挑战,涵盖了从复杂智能对话、实时翻译到流式转录等多种应用场景。

OpenAI发布三款实时语音模型,通过API向开发者开放

据ITCOW牛新网了解,此次发布的三款模型各有侧重。GPT-Realtime-2​ 是首款具备GPT-5级别推理能力的语音模型,专为复杂的实时交互设计。它能够在对话过程中进行深度推理、调用工具,并自然地处理用户的打断或纠正,使开发者能够构建可执行多步骤任务的智能语音助手。在定价上,其音频输入费用为每百万Token 32美元,输出为每百万Token 64美元,缓存输入则低至每百万Token 0.4美元。

OpenAI发布三款实时语音模型,通过API向开发者开放

另一款模型 GPT-Realtime-Translate​ 专注于实时翻译功能,支持70种输入语言转换为13种输出语言,翻译速度可做到与说话者语速同步,适用于跨国会议、实时解说等场景,其计费方式为按分钟计算,每分钟费用为0.034美元。

此外,GPT-Realtime-Whisper​ 模型则专注于实现低延迟的流式语音转文本。它能够做到音频“随说随转”,适用于需要实时字幕生成、会议速记等场景,同样采用按分钟计费的模式,每分钟费用为0.017美元。