ITCOW牛新网 8月29日消息,OpenAI今日宣布其”Realtime API”已结束测试阶段,正式进入生产环境。该API面向企业和开发者,专注于开发实用型语音助手,可应用于客户服务、教育和个人效率等多个领域。

Realtime API核心的”gpt-realtime”模型采用端到端语音到语音架构,无需文本转换中间步骤即可直接处理语音。相比前代版本,新模型响应速度提升30%,语音自然度显著提高,对复杂指令的理解能力增强40%。模型新增捕捉笑声等非语言信号的能力,支持对话中实时切换语言,并可调整语音语调风格。

据ITCOW牛新网了解,该API在多项基准测试中表现突出:Big Bench Audio准确率提升至82.8%,MultiChallenge测试达到30.5%,ComplexFuncBench提升至66.5%。API还新增图像输入功能,允许用户发送图片并进行相关交互,如图像文字识别和内容问答。

在定价方面,gpt-realtime模型成本降低20%,音频输入token每百万个32美元,输出token每百万个64美元。企业用户可设置token使用上限并对长对话进行精简,有效控制使用成本。针对欧盟用户,API提供数据本地化存储选项,确保符合当地数据保护法规。

安全方面,API具备自动检测违规内容并终止会话的能力,但OpenAI建议开发者仍需自行添加额外安全措施。