OpenAI实时语音模型正式上线支持多语言切换与情感语调调整

8 月 29, 2025 #OpenAI, #Realtime API

ITCOW牛新网 8月29日消息，OpenAI今日宣布其”Realtime API”已结束测试阶段，正式进入生产环境。该API面向企业和开发者，专注于开发实用型语音助手，可应用于客户服务、教育和个人效率等多个领域。

Realtime API核心的”gpt-realtime”模型采用端到端语音到语音架构，无需文本转换中间步骤即可直接处理语音。相比前代版本，新模型响应速度提升30%，语音自然度显著提高，对复杂指令的理解能力增强40%。模型新增捕捉笑声等非语言信号的能力，支持对话中实时切换语言，并可调整语音语调风格。

据ITCOW牛新网了解，该API在多项基准测试中表现突出：Big Bench Audio准确率提升至82.8%，MultiChallenge测试达到30.5%，ComplexFuncBench提升至66.5%。API还新增图像输入功能，允许用户发送图片并进行相关交互，如图像文字识别和内容问答。

在定价方面，gpt-realtime模型成本降低20%，音频输入token每百万个32美元，输出token每百万个64美元。企业用户可设置token使用上限并对长对话进行精简，有效控制使用成本。针对欧盟用户，API提供数据本地化存储选项，确保符合当地数据保护法规。

安全方面，API具备自动检测违规内容并终止会话的能力，但OpenAI建议开发者仍需自行添加额外安全措施。

人工智能

OpenAI实时语音模型正式上线支持多语言切换与情感语调调整

相关文章

华为云推出OpenClaw体验计划，首月9.9元送千万Tokens代金券

智谱AI启动“龙虾全国部署计划”，AutoClaw澳龙一键安装本地版OpenClaw

ChatGPT推出动态可视化讲解功能：70余项数理化公式可实时交互

更多资讯

华为云推出OpenClaw体验计划，首月9.9元送千万Tokens代金券

工信部发布“六要六不要”安全指南，防范“龙虾”智能体数据泄露与投毒风险

抖音安全中心提示：警惕利用“龙虾”智能体实施诈骗，代装服务或藏木马

腾讯云模型价格暴涨超5倍，WorkBuddy与QClaw抢占AI智能体市场