阿里通义百聆语音大模型升级：3秒复刻音色支持9语18方言，两款模型正式开源

12 月 15, 2025 #通义百聆

ITCOW牛新网 12月15日消息，阿里巴巴通义大模型团队今日宣布百聆语音模型迎来重大升级，新版本凭借突破性的音色克隆技术，仅需3秒语音样本即可实现9种通用语言和18种方言的精准复刻，同时具备情感控制能力。此次升级的两款核心模型Fun-CosyVoice3与Fun-ASR已正式开源，为开发者提供完整的本地化部署方案。

据ITCOW牛新网了解，Fun-CosyVoice3模型实现三大技术突破：首包延迟降低50%实现”输入即发声”的实时交互，中英文混合识别错误率下降56.4%，跨语种音色复刻可保持原声线高度一致。该模型支持开心、愤怒等9种情感调控，已适配语音助手、无障碍阅读等实时场景。

同步升级的Fun-ASR语音识别模型在嘈杂环境下识别准确率达93%，支持31种语言自由混说和歌词识别功能，流式识别首字响应时间优化至160毫秒。目前该技术已在钉钉会议等产品中规模化应用，其轻量化版本Fun-ASR-Nano显著降低推理成本。

此次开源涵盖GitHub、ModelScope等主流平台，提供完整的演示环境和模型仓库。分析认为，这项技术突破将显著降低智能语音应用开发门槛，有望推动直播配音、跨语种交流等场景的创新应用，加速语音交互技术的普惠化进程。

人工智能

阿里通义百聆语音大模型升级：3秒复刻音色支持9语18方言，两款模型正式开源

相关文章

Cursor发布Composer 2编程模型：主打长周期智能体编程，价格降幅达86%

微软MAI-Image-2大模型跃居全球生图三强，攻克文字渲染痛点

通义千问旗舰预览版亮相LM Arena，阿里跻身全球大模型公司前五

更多资讯

Cursor发布Composer 2编程模型：主打长周期智能体编程，价格降幅达86%

雷军致谢王兴兴：谢谢你在五年前给了我们一个投资宇树科技的机会

编造传播科大讯飞“裁员30%”网络谣言，造谣者沙某被行政拘留

微软MAI-Image-2大模型跃居全球生图三强，攻克文字渲染痛点