火山引擎发布豆包音频生成模型 1.0：支持多模态参考与长时音色一致

6 月 24, 2026 #豆包音频生成模型 1.0

ITCOW牛新网 6月24日消息，火山引擎于昨日发布豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），这是字节跳动豆包大模型家族中首个专门面向影视级音频创作的生成式模型。新版本首次支持参考生成——可接受文本描述或参考音频任一模态作为输入，端到端输出目标音频，并能在长时生成场景中保持多角色音色高度统一，大幅缩减后期修音与多轨混音工作量。

豆包音频生成模型 1.0

过去制作一段成片级有声内容，需分别生成人声、音效、配乐再手动对齐混音，门槛较高。豆包音频生成模型 1.0 将全流程压缩进单条 Prompt，可直接产出具备叙事张力的完整音频作品。据ITCOW牛新网了解，该模型支持在同一指令中定义多个角色的台词、语气与情绪节奏，并嵌入笑声、叹息、方言口音等非语言表达细节；背景音乐与环境音效也和人声统一生成，无需额外后期编配，输出即成品。针对长音频创作中最棘手的“串戏”问题——角色在第1分钟和第10分钟听起来不像同一人——新模型实现了文生音频与参考音频的深度联动，在多次延长生成中仍能保持音色高度可控与一致，满足有声书、播客及长剧集的制作需求。

在输入灵活性上，豆包音频生成模型 1.0 支持零样本多模态音频创造，无需额外微调即可通过文本或参考音频端到端生成高质量目标音频，且能解耦控制音色与风格——同一音色可适配不同情绪语境，也支持“一声多角”赋予差异化角色表现。目前火山方舟已开启该模型 API 邀测，个人用户可在火山方舟体验中心直接试用（享30分钟创作额度），面向创作者将很快上线剪映、即梦及番茄小说等产品。随着音频生成能力的成熟，豆包正试图在 AIGC 内容生产链中补全从文字、图像、视频到声音的最后一环。

相关文章

阿里云 QoderWork 推“峰谷 Token”：Qwen 3.7 Max 夜间调用低至 2 折

豆包专业版上线：基于 Seed 2.1 Pro 模型支持 Agent 办公任务，标准套餐连续包月 68 元

网易有道开源 Confucius4-TTS：3秒音频零样本克隆音色，14语种跨语种无口音且支持情感迁移

更多资讯

阿里云 QoderWork 推“峰谷 Token”：Qwen 3.7 Max 夜间调用低至 2 折

2026年 6月 24日

Counterpoint：全球无人机市场未来十年CAGR达14%，2035年规模剑指770亿美元

2026年 6月 24日

Win11 26H1 六月可选更新：放大镜重构、多应用调摄像头与 Dev Drive 支持 GB 单位

2026年 6月 24日

火山引擎发布豆包音频生成模型 1.0：支持多模态参考与长时音色一致

2026年 6月 24日