网易有道开源 Confucius4-TTS：3秒音频零样本克隆音色，14语种跨语种无口音且支持情感迁移

ITCOW牛新网 6月23日消息，网易有道于今日发布并开源新一代语音合成引擎——Confucius4-TTS（子曰4.0 TTS），这是业内首个同时支持十四种语言跨语种无口音表达、且无需参考文本即可完成零样本语音克隆的开源模型。用户仅上传一段最短三秒的任意音频片段，模型便可在无先验文本标注与无需微调训练的前提下，克隆出与原声相似度超85%、任务准确度达97%的目标音色，并用该音色以地道发音“说”出指定外语内容。

据ITCOW牛新网了解，Confucius4-TTS 全面覆盖中文、英语、西班牙语、法语、德语、韩语、泰语及越南语等十四种语言，其最核心的技术突破在于彻底解决了传统TTS系统在跨语种合成时难以消除源语言口音残留的顽疾——用户上传中文录音，AI即可用克隆音色流利输出日语、英语等外语，且发音自然纯正、无中文腔调。在情感表达维度，该模型摒弃了依赖人工打标文本标签控制情绪的粗放方式，创新支持以音频Prompt驱动情感克隆迁移，系统自动提取参考音频中的语调、停顿与情感韵律，实现跨语种场景下的情感特征无损传递。

底层架构上，Confucius4-TTS 相较网易早年开源的EmotiVoice进行了全面革新：弃用HiFi-GAN声码器与Speaker ID查表方案，转而采用GPT式语义大模型作为主干网络，搭配基于SSL自监督预训练特征与ECAPA-TDNN的可学习说话人编码器，并引入Flow Matching流匹配生成框架完成声学特征合成。网易有道已将Confucius4-TTS以Apache协议全量开源，包含完整模型权重及配套工具链，开发者可下载约54GB资源包做本地离线部署，商用无限制。目前模型已托管于GitHub（https://github.com/netease-youdao/Confucius4-TTS），适用于数字人配音、短剧出海、跨语言教学及全球化多媒体内容生成等场景，为国产语音AI提供了自主可控的技术底座。

网易有道开源 Confucius4-TTS：3秒音频零样本克隆音色，14语种跨语种无口音且支持情感迁移

相关文章

豆包大模型日均Token调用量飙至180万亿，梁汝波定调字节年度关键词“勇攀高峰”聚焦大模型能力

字节跳动豆包 Seed 2.1 系列深度思考模型上线：Pro 与 Turbo 版比肩 GPT-5.5

“物理AI第一股”Momenta通过港交所聆讯：三年营收翻三倍，估值约90亿美元

更多资讯

追觅汽车BU“星辰未来”发声明辟谣CEO离职：陈龙冬仅为BU负责人

网易有道开源 Confucius4-TTS：3秒音频零样本克隆音色，14语种跨语种无口音且支持情感迁移

小米全国第三座青年公寓武汉试运营：月租1099元起配米家全屋智能，7月面向全员开放申请

豆包大模型日均Token调用量飙至180万亿，梁汝波定调字节年度关键词“勇攀高峰”聚焦大模型能力