ITCOW牛新网 8月27日消息,谷歌DeepMind实验室近日发布全新Gemini 2.5 Flash图像编辑模型,该模型在保持人物与物体外观一致性的前提下,可实现基于文字指令的高精度图片修改。测试数据显示,其在多项图像编辑任务中的表现已超越ChatGPT使用的GPT-4o模型。

Gemini 2.5 Flash的核心创新在于”角色一致性”技术,能够在生成系列图像时保持同一人物或物体的外观特征不变,即使背景、光线或姿势发生变化。这一特性特别适合品牌宣传物料、电商产品图集的批量制作。模型还支持最多三张图像的智能融合,可将产品照无缝融入场景照片中。




据ITCOW牛新网了解,该模型已集成至Gemini应用,用户需切换至”Flash”模式使用。生成的图像会带有可见水印和不可见的SynthID数字水印。开发者可通过Gemini API等平台接入服务,收费标准为每百万输出token 30美元,单张图像处理成本约0.039美元。

业内人士分析,Gemini 2.5 Flash保持对象一致性的能力,解决了AI绘图领域长期存在的角色漂移问题,为商业级应用提供了更可靠的解决方案。随着技术的成熟,AI图像编辑有望在电商、广告等行业获得更广泛应用。