阶跃星辰发布 StepAudio 2.5 Realtime 语音大模型：主打“副语言感知”与“人设自定义”

5 月 9, 2026 #StepAudio 2.5 Realtime, #语音大模型, #阶跃星辰

ITCOW牛新网 5月9日消息，阶跃星辰昨日发布新一代实时语音大模型 StepAudio 2.5 Realtime，该模型目前已全量上线开放平台，供开发者接入使用。此次升级的核心在于通过捕捉语调、叹息等非文字信息来感知用户情绪，并支持高度精细化的角色定制，旨在彻底打破语音 AI 的“机械感”。

StepAudio 2.5 Realtime

听懂“弦外之音”的副语言感知

StepAudio 2.5 最大的技术突破在于其对副语言（Paralanguage）的理解能力。模型不仅能识别文字内容，更能精准解读语调的起伏、语速的快慢、停顿的长短，甚至是一声轻笑或叹息。这意味着 AI 可以从用户低沉的声线中察觉疲惫，或从急促的语气里识别烦躁，并据此动态调整回应策略，让对话更像真人之间的情感交流，而非机械应答。

百万级人设矩阵与防“崩塌”机制

在人设灵活性上，该模型将定义权完全下放。开发者可通过 API 对 AI 角色的性格特质、背景经历、语言习惯甚至对话边界进行微调。这一能力背后是基于超过 1 万个高质量原生人设、通过算法裂变生成的百万级人设特征矩阵。针对角色扮演中常见的“人设崩塌”痛点，团队进行了专门的 RLHF 对齐优化，即使在极端情境的压力测试下，模型也能保持高度的角色一致性。

StepAudio 2.5 Realtime

评测数据领先，双商在线

根据官方发布的 2026 年 4 月评测数据，StepAudio 2.5 在多项关键指标上表现强势。在最能反映真实体验的主观评测（手机 App 真人对话打分）中，其得分达 80.41，显著高于 GPT-Realtime-1.5（68.01）和 Gemini Live（67.16）；在语音问答基准测试中得分为 79.80，约为 GPT-Realtime-1.5 的 1.5 倍。模型在智商（理解复杂语义、抛梗接梗）与情商（提供情绪价值）上双重进阶，既能作为日常聊天搭子，也能胜任模拟面试等严肃场景。

相关文章

OpenAI：Codex 非程序员用户暴增137倍，Agent模式长时任务请求者翻近十倍

百度开源 Unlimited OCR 模型：基于 DeepSeek 架构，解决长文档“越生成越慢”问题

GitHub 六月创史上最佳月度业绩，Copilot 改按量计费后使用量激增

更多资讯

广汽×华为启境GT7猎装轿跑上市：20.99万起首搭乾崑ADS 5，玩家首发版赠黄景瑜联名礼包

2026年 6月 27日

2027款现代伊兰特全球首发：钢铁艺术设计语言加持，12.9英寸中控搭Pleos系统配怀挡

2026年 6月 26日

2026开放原子开源生态大会在京开幕：电鸿、xLLM等七项目完成捐赠，M-Robots与仪鸿社区同步启动

2026年 6月 26日

Wallpaper Engine 宣布下架创意工坊“应用程序”类壁纸，用户须一周内自行备份本地文件

2026年 6月 26日