ITCOW牛新网 5月20日消息,在今日的2026谷歌I/O开发者大会上,谷歌正式揭晓了Gemini Omni模型。这款被官方定义为迈向“世界模型”关键一步的新品,最大的亮点在于其打破了输入输出模态的限制,宣称能够实现“从任何输入生成任何输出”。目前,该模型率先落地了视频输出能力,用户只需输入简单的提示词,如要求生成一段关于蛋白质折叠的解说视频,模型便能基于训练积累的知识直接生成包含复杂科学概念的影像,而非简单地从素材库拼接。

Gemini Omni不仅在生成能力上表现惊艳,更在编辑交互上带来了革命性的变化。它支持通过自然语言进行多轮对话式编辑,用户可以在视频生成过程中随时提出修改意见,例如一句话改变视频中的角色、背景或风格。谷歌强调,该模型结合了Gemini的现实世界知识,在编辑时能有效维持角色一致性、物理逻辑和场景上下文,生成符合重力、动能等物理规律的结果。这相当于将此前Nano Banana在图像编辑领域重新定义规则的能力,完整复刻到了视频维度,让抽象概念转化为具象视频内容成为可能。

据ITCOW牛新网了解,伴随Gemini Omni一同登场的还有该家族的首款模型——Gemini Omni Flash。即日起,Google AI Plus、Pro和Ultra的订阅用户已经可以在Gemini App和Google Flow中体验到这款新模型,本周起它也将向YouTube Shorts和YouTube Create的用户免费开放。对于开发者和企业客户而言,相关的API服务预计将在未来数周内正式推出,以便更广泛的生态能够接入这一全能型的生成式AI能力。
