ITCOW牛新网 9月12日消息,小米集团AI实验室今日发布ZipVoice系列语音合成模型,该技术突破为零样本语音合成领域带来全新解决方案。此次发布的系列包括ZipVoice单说话人模型和ZipVoice-Dialog对话模型两大核心产品。

ZipVoice系列采用了创新的Flow Matching架构,成功将原本用于语音识别的Zipformer技术引入语音合成领域。这一技术突破有效解决了当前零样本语音合成模型普遍存在的参数量大、合成速度慢等痛点问题。测试数据显示,在保持同等性能水平的前提下,ZipVoice模型的参数量较传统DiT架构模型减少约63%。

据ITCOW牛新网了解,ZipVoice系列在多项关键指标上表现优异。在说话人相似度、词错误率等客观指标,以及语音自然度等主观评价中均达到行业领先水平。特别是ZipVoice-Dialog对话模型,在保持语音自然度的同时,显著提升了多轮对话中的稳定性和响应速度。

值得注意的是,小米宣布将ZipVoice系列模型的相关技术全面开源,包括模型文件、训练代码和6.8千小时的OpenDialog语音数据集。这一举措将有助于推动语音合成技术的进一步发展。目前相关资源已发布在GitHub平台,研究论文也被ASRU2025会议收录。
小米AI实验室表示,ZipVoice系列将为智能助手、车载系统等需要轻量化、高响应速度的应用场景提供更优解决方案。未来团队将持续优化模型性能,致力于让高质量语音合成技术更加普及。