小米发布 MiMo-V2.5 全链路语音模型：TTS 限时免费，ASR 正式开源

4 月 24, 2026 #MiMo-V2.5

ITCOW牛新网 4月24日消息，小米今日正式推出 MiMo-V2.5 全链路语音模型系列，包含 MiMo-V2.5-TTS Series（语音合成）与 MiMo-V2.5-ASR（语音识别）。该系列主打“用自然语言调度声音”，旨在为 Agent（智能体）提供从输入到输出的完整语音交互能力。在商业化策略上，小米采取了激进的开源与免费策略：TTS 系列在 MiMo 开放平台限时免费，ASR 模型则直接开源了权重与代码。

MiMo-V2.5

语音合成（TTS）：像导演一样控制声音

MiMo-V2.5-TTS 系列包含三款模型，均支持通过自然语言指令（如“语速加快、带点悲伤情绪”）或音频标签来精细控制声音输出，无需依赖传统的结构化参数。

MiMo-V2.5-TTS（基础版）：内置多款精品音色，开箱即用，适合通用场景。
MiMo-V2.5-TTS-VoiceDesign（音色设计）：通过一句话描述（如“元气少女音”或“低沉老年音”）从零生成全新音色，无需参考音频。
MiMo-V2.5-TTS-VoiceClone（音色克隆）：仅需数秒至 30 秒的参考音频，即可高保真复刻真人音色，并保留语速、情绪等控制能力。

MiMo-V2.5

语音识别（ASR）：复杂场景的听觉基座

MiMo-V2.5-ASR 作为听觉基座正式开源，其核心优势在于对复杂真实场景的鲁棒性，解决了中英混杂、方言、噪音等传统痛点。

多语种与方言：支持中英双语、吴语、粤语、闽南语、四川话等，中英混说（Code-Switch）无需预设语种标签。
抗噪与多场景：在强噪音、远场拾音、多人会议及带伴奏的歌曲歌词识别场景下表现领先。
智能后处理：结合韵律与语义原生输出标点符号，转写结果无需二次加工即可直接使用。

开发者现可通过 Xiaomi MiMo Studio 体验 TTS 效果，或直接获取 ASR 开源代码进行二次开发。

相关文章

人工智能头条关注

Anthropic 发布 Claude Opus 5：性能逼近 Fable 5 但价格砍半

Anthropic 为 Claude 语音模式接入 Opus 与 Sonnet：支持 Gmail/Slack/Canva 语音调度

OpenAI 将 ChatGPT 语音功能推至 macOS/Windows 桌面端：GPT-Live 驱动开口调度 Codex 多代理

更多资讯

网信部门严管自媒体未规范标注信息来源：处置3704个账号、纠正4.8万条短视频

2026年 7月 27日

荣耀 Robot Phone 定档 8 月 12 日发布：全球首款机器人手机配 4DoF 钛合金云台

2026年 7月 27日

微软承认 Win11 原生应用与 WinUI 内存占用过高，承诺先优化框架再推新版开始菜单与通知中心

2026年 7月 27日

小鹏汽车官宣澳大利亚长期战略：未来6个月推5款新车，X9开放预订

2026年 7月 27日