ITCOW牛新网 6月23日消息,网易有道于今日发布并开源新一代语音合成引擎——Confucius4-TTS(子曰4.0 TTS),这是业内首个同时支持十四种语言跨语种无口音表达、且无需参考文本即可完成零样本语音克隆的开源模型。用户仅上传一段最短三秒的任意音频片段,模型便可在无先验文本标注与无需微调训练的前提下,克隆出与原声相似度超85%、任务准确度达97%的目标音色,并用该音色以地道发音“说”出指定外语内容。

据ITCOW牛新网了解,Confucius4-TTS 全面覆盖中文、英语、西班牙语、法语、德语、韩语、泰语及越南语等十四种语言,其最核心的技术突破在于彻底解决了传统TTS系统在跨语种合成时难以消除源语言口音残留的顽疾——用户上传中文录音,AI即可用克隆音色流利输出日语、英语等外语,且发音自然纯正、无中文腔调。在情感表达维度,该模型摒弃了依赖人工打标文本标签控制情绪的粗放方式,创新支持以音频Prompt驱动情感克隆迁移,系统自动提取参考音频中的语调、停顿与情感韵律,实现跨语种场景下的情感特征无损传递。
底层架构上,Confucius4-TTS 相较网易早年开源的EmotiVoice进行了全面革新:弃用HiFi-GAN声码器与Speaker ID查表方案,转而采用GPT式语义大模型作为主干网络,搭配基于SSL自监督预训练特征与ECAPA-TDNN的可学习说话人编码器,并引入Flow Matching流匹配生成框架完成声学特征合成。网易有道已将Confucius4-TTS以Apache协议全量开源,包含完整模型权重及配套工具链,开发者可下载约54GB资源包做本地离线部署,商用无限制。目前模型已托管于GitHub(https://github.com/netease-youdao/Confucius4-TTS),适用于数字人配音、短剧出海、跨语言教学及全球化多媒体内容生成等场景,为国产语音AI提供了自主可控的技术底座。