字节跳动发布Seedance 1.5 pro音视频创作模型，支持原生音视频联合生成

ITCOW牛新网 12月16日消息，字节跳动Seed团队今日正式发布新一代音视频创作模型Seedance 1.5 pro。该模型突破性地实现了音视频联合生成功能，能够基于文本或图像输入，同步生成带有声音的视频内容。

Seedance 1.5 pro采用基于MMDiT架构的音视频联合生成框架，通过深度跨模态信息交互机制，实现了视觉与听觉流在时间同步与语义一致性上的精准协同。与传统”视频生成+后期配音”的级联方式不同，该模型在生成画面每一帧的同时，由同一套神经网络同步生成对应的声音波形，从根本上解决了”口型对不上”、”声画不同步”等长期痛点。

与Seedance 1.0版本侧重运动稳定性不同，1.5 pro版本在视听协同、视觉张力和叙事协调性等方面实现多项突破。模型支持精准音画同步，能够捕捉多语种及方言的独特语音韵律与情感张力，原生支持中文、英文、日文、韩语、西班牙语、印尼语等语种，以及四川话、粤语等多种方言口音。在视频层面，模型具备自发的镜头调度能力，可执行长镜头跟随、希区柯克变焦等高难度运镜，实现电影级的画面衔接与专业影调。

在综合评测中，Seedance 1.5 pro各项关键能力处于业界前列水平。评测显示，模型对动作、镜头等复杂指令的理解相对精准，动态表现饱满，人物表情特写生动，复杂运镜相对流畅且与参考图风格衔接自然统一。在音频生成方面，模型在音频指令遵循、音画同步、音质与表现力等维度表现稳定且均衡，生成的人声相对更自然、机械感更少，音效真实感与空间混响较为贴近实际。

通过多阶段蒸馏框架和推理基础设施优化，Seedance 1.5 pro实现了超过10倍的端到端推理加速，大幅降低了生成所需的函数评估次数。这意味着生成一段高质量的音视频内容，用户等待的时间将大幅缩短，让专业级的内容创作不再遥不可及。

Seedance 1.5 pro可有力支持影视创作、短剧生成、广告生产及戏曲演绎等场景。在I2V任务中，模型展现出较强的风格一致性，有效保持了多镜头切换与复杂运动中的人物特征稳定，提升了从素材片段到成片制作的连贯性。目前，该模型已上线即梦AI和豆包平台，开发者可通过官方地址（https://seed.bytedance.com/seedance1_5_pro）获取详细技术文档与评测报告。

字节跳动发布Seedance 1.5 pro音视频创作模型，支持原生音视频联合生成

相关文章

Cursor发布Composer 2编程模型：主打长周期智能体编程，价格降幅达86%

微软MAI-Image-2大模型跃居全球生图三强，攻克文字渲染痛点

通义千问旗舰预览版亮相LM Arena，阿里跻身全球大模型公司前五

更多资讯

Cursor发布Composer 2编程模型：主打长周期智能体编程，价格降幅达86%

雷军致谢王兴兴：谢谢你在五年前给了我们一个投资宇树科技的机会

编造传播科大讯飞“裁员30%”网络谣言，造谣者沙某被行政拘留

微软MAI-Image-2大模型跃居全球生图三强，攻克文字渲染痛点