ITCOW牛新网 5月9日消息,阶跃星辰昨日发布新一代实时语音大模型 StepAudio 2.5 Realtime,该模型目前已全量上线开放平台,供开发者接入使用。此次升级的核心在于通过捕捉语调、叹息等非文字信息来感知用户情绪,并支持高度精细化的角色定制,旨在彻底打破语音 AI 的“机械感”。

StepAudio 2.5 Realtime

听懂“弦外之音”的副语言感知

StepAudio 2.5 最大的技术突破在于其对副语言(Paralanguage)的理解能力。模型不仅能识别文字内容,更能精准解读语调的起伏、语速的快慢、停顿的长短,甚至是一声轻笑或叹息。这意味着 AI 可以从用户低沉的声线中察觉疲惫,或从急促的语气里识别烦躁,并据此动态调整回应策略,让对话更像真人之间的情感交流,而非机械应答。

百万级人设矩阵与防“崩塌”机制

在人设灵活性上,该模型将定义权完全下放。开发者可通过 API 对 AI 角色的性格特质、背景经历、语言习惯甚至对话边界进行微调。这一能力背后是基于超过 1 万个高质量原生人设、通过算法裂变生成的百万级人设特征矩阵。针对角色扮演中常见的“人设崩塌”痛点,团队进行了专门的 RLHF 对齐优化,即使在极端情境的压力测试下,模型也能保持高度的角色一致性。

StepAudio 2.5 Realtime

评测数据领先,双商在线

根据官方发布的 2026 年 4 月评测数据,StepAudio 2.5 在多项关键指标上表现强势。在最能反映真实体验的主观评测(手机 App 真人对话打分)中,其得分达 80.41,显著高于 GPT-Realtime-1.5(68.01)和 Gemini Live(67.16);在语音问答基准测试中得分为 79.80,约为 GPT-Realtime-1.5 的 1.5 倍。模型在智商(理解复杂语义、抛梗接梗)与情商(提供情绪价值)上双重进阶,既能作为日常聊天搭子,也能胜任模拟面试等严肃场景。