ITCOW牛新网 12月24日消息,阿里巴巴集团旗下的通义实验室今日发布Qwen3-TTS系列的两款新型AI语音模型,分别为音色创造模型Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash。这两款产品在语音合成领域实现了多项技术突破,用户不仅能够复制现有声音,还能通过自然语言指令自定义生成全新的音色。
Qwen3-TTS-VD-Flash模型支持通过复杂的自然语言描述来精细调控音色、韵律、情感及人设特征,让用户从“说什么”到“如何说”实现全面掌控。该模型在InstructTTS-Eval评测中表现优异,综合得分显著超越GPT-4o-mini-tts和Mimo-audio-7b-instruct,并在角色扮演测试中优于Gemini-2.5-pro-preview-tts。

据ITCOW牛新网了解,另一款Qwen3-TTS-VC-Flash模型具备仅需3秒音频即可完成音色克隆的能力,并支持基于克隆音色生成中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语及俄语等10种主流语言的语音。在MiniMax TTS多语言测试集上,该模型在内容稳定性方面优于MiniMax、ElevenLabs和GPT-4o-Audio-Preview,其平均词错误率(WER)位列第一。

两款模型均展现出高表现力的拟人化音色,能够稳定输出与输入文本高度匹配的语音,并依据语义自动调整语气节奏,实现自然流畅的表达效果。同时,它们具备强大的文本解析能力,可自动处理复杂文本结构,精准提取关键信息,对非规范化文本格式表现出良好的鲁棒性。
阿里巴巴同步开放了Qwen3-TTS-Voice-Design和Qwen3-TTS-Voice-Clone的API文档,供开发者进一步集成与应用。