ITCOW牛新网 12月15日消息,阿里巴巴通义大模型团队今日宣布百聆语音模型迎来重大升级,新版本凭借突破性的音色克隆技术,仅需3秒语音样本即可实现9种通用语言和18种方言的精准复刻,同时具备情感控制能力。此次升级的两款核心模型Fun-CosyVoice3与Fun-ASR已正式开源,为开发者提供完整的本地化部署方案。

据ITCOW牛新网了解,Fun-CosyVoice3模型实现三大技术突破:首包延迟降低50%实现”输入即发声”的实时交互,中英文混合识别错误率下降56.4%,跨语种音色复刻可保持原声线高度一致。该模型支持开心、愤怒等9种情感调控,已适配语音助手、无障碍阅读等实时场景。
同步升级的Fun-ASR语音识别模型在嘈杂环境下识别准确率达93%,支持31种语言自由混说和歌词识别功能,流式识别首字响应时间优化至160毫秒。目前该技术已在钉钉会议等产品中规模化应用,其轻量化版本Fun-ASR-Nano显著降低推理成本。
此次开源涵盖GitHub、ModelScope等主流平台,提供完整的演示环境和模型仓库。分析认为,这项技术突破将显著降低智能语音应用开发门槛,有望推动直播配音、跨语种交流等场景的创新应用,加速语音交互技术的普惠化进程。