豆包大模型发布首款全模态理解模型，支持音视频跨模态推理

5 月 7, 2026 #Doubao-Seed-2.0-lite, #字节跳动, #火山引擎, #豆包大模型

ITCOW牛新网 5月7日消息，字节跳动旗下火山引擎昨晚发布了豆包大模型家族的重大升级——Doubao-Seed-2.0-lite 全新版本。该模型定位为豆包家族首款支持视频、图像、音频、文本原生统一理解的全模态模型，旨在为企业提供大规模、批量化部署的高性价比解决方案。同步上线的还有思考长度更短、Token效率更高的 Doubao-Seed-2.0-mini 版本。

全模态理解：音画同步与跨模态推理

新模型突破了传统多模态的技术框架，实现了真正的跨模态联合分析。在视频理解层面，模型不仅能单独解析画面或声音，更能进行“音画结合”的一致性判断，例如检测视频内容与音频是否匹配。它支持根据自然语言指令在长视频中精准定位事件时间点，并跨时间段追踪人物行为轨迹。在音频理解方面，模型支持19种语言的语音转写及中英文与14种语种的互译，并能深度捕捉语音中的情绪、环境声及音乐细节。官方数据显示，其在多项音频理解基准测试中表现优于 Gemini-3.1-Pro。

Doubao-Seed-2.0-lite 全新版本

Doubao-Seed-2.0-lite 全新版本

Doubao-Seed-2.0-lite 全新版本

Agent与GUI能力：从“看懂”到“干完”

此次升级强化了模型的执行与交互能力。Agent（智能体）能力方面，模型对多轮复杂指令的遵循度显著提升，具备任务反思与多Agent协同调度能力，能够稳定执行长周期任务。GUI（图形界面）能力实现了“识别-操作”闭环，模型可精准识别按钮、表单等界面元素，并模拟人类操作进行点击、输入、拖拽，从而完成跨应用的业务流程自动化。Coding能力则覆盖了前端页面、3D场景及游戏开发，交付产物的工程完整度进一步提升。

Doubao-Seed-2.0-lite 全新版本

Doubao-Seed-2.0-lite 全新版本

商业化场景落地

火山引擎展示了该模型在多个高价值场景的应用潜力。在电竞游戏场景，模型可作为“AI教练”分析比赛视频，结合画面与语音进行多维度复盘；在在线教育场景，可自动生成课堂表现报告；在海外电商运营中，模型能自动搜索竞品视频、拆解内容要素并生成多语言推广素材，实现运营自动化。

据ITCOW牛新网了解，Doubao-Seed-2.0-lite 全新版本目前已正式上线火山方舟平台，面向企业用户开放使用。

相关文章

人工智能头条关注

OpenAI 发布 GPT-5.6 系列模型：编程跑分超越 Claude Mythos 5，首批仅向可信伙伴开放预览

Anthropic 测试手机端 Claude Cowork：支持远程发起与监控 AI 长任务

OpenAI：Codex 非程序员用户暴增137倍，Agent模式长时任务请求者翻近十倍

更多资讯

理想汽车正式进驻澳门市场：首店开业推双卡通信方案，i6与i8率先投放

2026年 6月 27日

腾讯回应拟退出部分日本游戏工作室投资：持续支持被投企业，保持对日长期关注

2026年 6月 27日

金山办公 WPS 回应 C 盘占用争议：7 月新版本增安装路径选择与存储管理模块

2026年 6月 27日

人工智能头条关注

OpenAI 发布 GPT-5.6 系列模型：编程跑分超越 Claude Mythos 5，首批仅向可信伙伴开放预览

2026年 6月 27日