ITCOW牛新网 5月7日消息,字节跳动旗下火山引擎昨晚发布了豆包大模型家族的重大升级——Doubao-Seed-2.0-lite 全新版本。该模型定位为豆包家族首款支持视频、图像、音频、文本原生统一理解的全模态模型,旨在为企业提供大规模、批量化部署的高性价比解决方案。同步上线的还有思考长度更短、Token效率更高的 Doubao-Seed-2.0-mini 版本。
全模态理解:音画同步与跨模态推理
新模型突破了传统多模态的技术框架,实现了真正的跨模态联合分析。在视频理解层面,模型不仅能单独解析画面或声音,更能进行“音画结合”的一致性判断,例如检测视频内容与音频是否匹配。它支持根据自然语言指令在长视频中精准定位事件时间点,并跨时间段追踪人物行为轨迹。在音频理解方面,模型支持19种语言的语音转写及中英文与14种语种的互译,并能深度捕捉语音中的情绪、环境声及音乐细节。官方数据显示,其在多项音频理解基准测试中表现优于 Gemini-3.1-Pro。



Agent与GUI能力:从“看懂”到“干完”
此次升级强化了模型的执行与交互能力。Agent(智能体)能力方面,模型对多轮复杂指令的遵循度显著提升,具备任务反思与多Agent协同调度能力,能够稳定执行长周期任务。GUI(图形界面)能力实现了“识别-操作”闭环,模型可精准识别按钮、表单等界面元素,并模拟人类操作进行点击、输入、拖拽,从而完成跨应用的业务流程自动化。Coding能力则覆盖了前端页面、3D场景及游戏开发,交付产物的工程完整度进一步提升。


商业化场景落地
火山引擎展示了该模型在多个高价值场景的应用潜力。在电竞游戏场景,模型可作为“AI教练”分析比赛视频,结合画面与语音进行多维度复盘;在在线教育场景,可自动生成课堂表现报告;在海外电商运营中,模型能自动搜索竞品视频、拆解内容要素并生成多语言推广素材,实现运营自动化。
据ITCOW牛新网了解,Doubao-Seed-2.0-lite 全新版本目前已正式上线火山方舟平台,面向企业用户开放使用。