ITCOW牛新网 12月19日消息,据海外科技媒体9to5Mac报道,苹果研究团队近日推出了新一代多模态AI模型UniGen 1.5,该模型突破性地将图像理解、生成与编辑三大功能整合于单一系统。与依赖多个独立模型处理不同任务的传统方案不同,UniGen 1.5通过统一架构实现了视觉任务的全流程覆盖。

据ITCOW牛新网了解,UniGen 1.5最具创新性的突破在于引入了”编辑指令对齐”的后训练机制。该技术不直接修改图像,而是要求模型先根据原始图像和用户指令预测目标图像的详细文本描述,通过这种”先思考后生成”的中间步骤,使模型深度内化编辑意图,显著提升修改准确率。在强化学习层面,研究团队成功设计出统一的奖励系统,可同时应用于图像生成和编辑的训练过程,解决了因任务跨度大难以统一质量标准的行业难题。


在多项权威基准测试中,UniGen 1.5展现出卓越竞争力。该模型在GenEval和DPG-Bench测试中分别获得0.89和86.83的高分,显著优于BAGEL和BLIP3o等近期热门方法。在图像编辑专项测试ImgEdit中,其4.31的综合得分不仅超越OminiGen2等开源模型,更与GPT-Image-1等专有闭源模型表现持平,体现了其在多模态任务处理上的综合优势。
UniGen 1.5的统一架构使其能够利用强大的图像理解能力反哺生成效果,实现更精准的视觉输出。这种”三合一”的设计思路大幅提升了模型在处理复杂视觉任务时的协调性,特别是在需要多步骤协作的图像创作和编辑场景中表现突出。该技术为图像处理、创意设计、内容创作等领域提供了新的工具可能性,有望推动相关行业的效率革新。
研究人员在论文中坦承,由于离散去标记器在控制细粒度结构方面存在不足,模型在生成图片内的文字时容易出现错误。同时,在部分编辑场景下会出现主体特征漂移问题,如动物毛发纹理改变或颜色偏差。这些技术挑战将成为团队未来的重点优化方向,特别是在提升细节控制精度和特征保持能力方面。

业内分析认为,UniGen 1.5的推出展现了苹果在AI领域的技术积累,其统一架构思路为多模态模型的发展提供了新方向。随着后续技术的不断完善,这一突破性模型有望在专业图像处理、创意内容生成等场景发挥更大价值,推动视觉AI技术向更智能、更集成的方向发展。