阿里通义发布语音双模型：一句话自由生成，支持多语种复刻与场景化音频

3 月 2, 2026 #通义

ITCOW牛新网 3月2日消息，阿里通义实验室语音团队今日发布两款支持“FreeStyle”指令生成的语音大模型：Fun-CosyVoice3.5 与 Fun-AudioGen-VD。这两款模型打破了传统语音生成对预设标签的依赖，实现了通过自然语言指令进行多语种复刻、精细化表达控制以及场景化音频生成。

阿里通义Fun-CosyVoice3.5 与 Fun-AudioGen-VD模型

据ITCOW牛新网了解，Fun-CosyVoice3.5 主打多语种复刻与精细化表达控制。该模型支持 FreeStyle 指令控制，用户可以通过自然语言描述（例如“语气坚定一点”、“稍微压低音调，语速慢一点”）来生成所需的语音风格，不再受限于固定的情绪或语气选项。此外，该模型新增了泰语、印尼语、葡萄牙语、越南语支持，覆盖13种语言，生僻字读错率从15.2%降至5.3%，首包延迟降低35%，实时交互响应更快。

Fun-AudioGen-VD 则专注于声音设计与场景化建模。该模型支持通过指令精确控制性别、年龄、情绪及空间声学效果，能够模拟从“疯狂反派”到“热闹咖啡馆”等复杂的角色与背景音一体化场景。它不仅支持生成“表面镇定但内心颤抖”的复杂心理状态语音，还能叠加背景环境音、空间混响、设备滤镜，打造沉浸式听觉场景。

这两款模型的发布标志着语音生成技术从依赖预设标签的传统范式，向基于自然语言指令自由控制的新范式跨越，将直接赋能影视、游戏及AI智能体等领域。

人工智能

阿里通义发布语音双模型：一句话自由生成，支持多语种复刻与场景化音频

相关文章

银河通用机器人完成25亿元融资，春晚“真干活”获资本青睐

阿里巴巴AI品牌统一为“千问”，春节DAU暴涨940%成国民级应用

淘宝闪购开源“白泽”大模型：AI 24小时巡检后厨，专治外卖“黑店”

更多资讯

小鹏第二代VLA发布：端到端架构重构智驾范式，大众成首发客户

OpenAI疑似收购GPT.com域名，重定向至ChatGPT官网

联想发布2026款ThinkPad T系列：AI算力升级，轻薄与可维修性并重

字节跳动PICO预告OS 6系统，2026年旗舰Project Swan将搭载自研芯片