ITCOW牛新网 1月26日消息,腾讯混元今日推出混元图像3.0图生图模型,该模型具备多图融合与智能编辑能力,目前已同步上线腾讯元宝应用及官网开放体验。新模型采用混合专家架构,总参数量达80亿,激活参数约为13亿,在图像理解与指令执行方面实现显著提升。

混元图像3.0图生图模型基于原生多模态架构开发,通过引入多任务数据并进行指令微调,能够深度解析用户输入的图像内容与编辑要求。其工作流程包含理解、推理与执行三个阶段:首先对输入图像进行内容分析,随后根据用户指令生成详细编辑步骤,最终精准完成指定区域的修改任务。该模型支持增删改、风格转换、老照片修复、人物与文字修改等多种编辑功能,并能将多张图片中的元素智能合成为新图像。



据ITCOW牛新网了解,在模型训练过程中,腾讯混元团队通过原始数据挖掘与专家网络合成相结合的方式,构建了千万量级的训练数据集,覆盖超过80种编辑任务。为提高输出质量,团队还为模型注入了思维链机制,使其能够先分析用户意图再生成详细编辑指令。在后续优化阶段,采用自研MixGRPO算法结合奖励模型进行多轮迭代,有效提升了指令响应准确性与非编辑区域的保持效果。


目前用户可通过腾讯元宝应用或混元官网直接体验该模型,其功能可广泛应用于表情包制作、虚拟人物合拍、社交分享、电商海报设计、游戏角色定制等创意场景。此次更新进一步丰富了腾讯在AI图像处理领域的产品布局,为内容创作者提供了更强大的工具支持。



