阿里通义Qwen3-TTS双模型发布：支持3秒音色克隆与多语言自定义语音生成

ITCOW牛新网 12月24日消息，阿里巴巴集团旗下的通义实验室今日发布Qwen3-TTS系列的两款新型AI语音模型，分别为音色创造模型Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash。这两款产品在语音合成领域实现了多项技术突破，用户不仅能够复制现有声音，还能通过自然语言指令自定义生成全新的音色。

Qwen3-TTS-VD-Flash模型支持通过复杂的自然语言描述来精细调控音色、韵律、情感及人设特征，让用户从“说什么”到“如何说”实现全面掌控。该模型在InstructTTS-Eval评测中表现优异，综合得分显著超越GPT-4o-mini-tts和Mimo-audio-7b-instruct，并在角色扮演测试中优于Gemini-2.5-pro-preview-tts。

据ITCOW牛新网了解，另一款Qwen3-TTS-VC-Flash模型具备仅需3秒音频即可完成音色克隆的能力，并支持基于克隆音色生成中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语及俄语等10种主流语言的语音。在MiniMax TTS多语言测试集上，该模型在内容稳定性方面优于MiniMax、ElevenLabs和GPT-4o-Audio-Preview，其平均词错误率（WER）位列第一。

两款模型均展现出高表现力的拟人化音色，能够稳定输出与输入文本高度匹配的语音，并依据语义自动调整语气节奏，实现自然流畅的表达效果。同时，它们具备强大的文本解析能力，可自动处理复杂文本结构，精准提取关键信息，对非规范化文本格式表现出良好的鲁棒性。

阿里巴巴同步开放了Qwen3-TTS-Voice-Design和Qwen3-TTS-Voice-Clone的API文档，供开发者进一步集成与应用。

阿里通义Qwen3-TTS双模型发布：支持3秒音色克隆与多语言自定义语音生成

相关文章

Anthropic封杀OpenClaw：订阅额度不再支持第三方工具

谷歌 AI Pro 订阅存储空间提至 5TB，功能生态再扩容

阿里发布 Qwen3.6-Plus 模型编码智能体能力跃升性价比领先同级别产品

更多资讯

北京警方预警：iMessage“贷款逾期”诈骗频发，涉案金额已近27万元

闲鱼“鱼小铺”费率调整：服务费上调至1.6%，4月18日正式生效

中国首款WSBK冠军摩托车张雪820RR量产下线，官方严正打假假冒账号

特斯拉在欧洲测试FSD新界面，为合规落地铺路