ITCOW牛新网 6月24日消息,火山引擎于昨日发布豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0),这是字节跳动豆包大模型家族中首个专门面向影视级音频创作的生成式模型。新版本首次支持参考生成——可接受文本描述或参考音频任一模态作为输入,端到端输出目标音频,并能在长时生成场景中保持多角色音色高度统一,大幅缩减后期修音与多轨混音工作量。

豆包音频生成模型 1.0

过去制作一段成片级有声内容,需分别生成人声、音效、配乐再手动对齐混音,门槛较高。豆包音频生成模型 1.0 将全流程压缩进单条 Prompt,可直接产出具备叙事张力的完整音频作品。据ITCOW牛新网了解,该模型支持在同一指令中定义多个角色的台词、语气与情绪节奏,并嵌入笑声、叹息、方言口音等非语言表达细节;背景音乐与环境音效也和人声统一生成,无需额外后期编配,输出即成品。针对长音频创作中最棘手的“串戏”问题——角色在第1分钟和第10分钟听起来不像同一人——新模型实现了文生音频与参考音频的深度联动,在多次延长生成中仍能保持音色高度可控与一致,满足有声书、播客及长剧集的制作需求。

在输入灵活性上,豆包音频生成模型 1.0 支持零样本多模态音频创造,无需额外微调即可通过文本或参考音频端到端生成高质量目标音频,且能解耦控制音色与风格——同一音色可适配不同情绪语境,也支持“一声多角”赋予差异化角色表现。目前火山方舟已开启该模型 API 邀测,个人用户可在火山方舟体验中心直接试用(享30分钟创作额度),面向创作者将很快上线剪映、即梦及番茄小说等产品。随着音频生成能力的成熟,豆包正试图在 AIGC 内容生产链中补全从文字、图像、视频到声音的最后一环。