ITCOW牛新网 12月8日消息,美团旗下的LongCat团队近日发布并开源了一款名为LongCat-Image的图像生成模型,该模型凭借其卓越的性能和创新的架构设计,在图像生成和编辑领域取得了较大突破,尤其是在6B参数规模下,成功逼近了更大尺寸模型的效果,引发了业界的广泛关注。

LongCat-Image模型架构
LongCat-Image模型架构

LongCat-Image模型采用了文生图与图像编辑同源的架构设计,并结合了渐进式学习策略。这一独特的设计使得模型在仅6B的紧凑参数规模下,实现了指令遵循精准度、生图质量与文字渲染能力的高效协同提升。特别是在单图编辑的可控性和文字生成的汉字覆盖度方面,LongCat-Image展现出了独特的优势,为用户提供了更加精准和高效的图像生成与编辑体验。

据ITCOW牛新网了解,LongCat-Image在图像编辑领域取得了多项突破。在GEdit-Bench、ImgEdit-Bench等关键基准测试中,该模型均达到了开源SOTA(State of the Art,即最先进水平)标准。

模型基于文生图Mid-training阶段进行初始化,并采用指令编辑与文生图多任务联合学习机制,从而深化了对复杂多样化指令的理解。此外,通过预训练阶段的多源数据及指令改写策略,以及SFT(Supervised Fine-Tuning,即监督微调)阶段引入的人工精标数据,LongCat-Image实现了指令遵循精准度、泛化性和编辑前后视觉一致性的共同提升。

LongCat-Image图像生成模型

在中文文字生成方面,LongCat-Image同样展现出了强大的能力。针对中文文本渲染这一行业难题,该模型通过课程学习策略显著提升了字符覆盖度和渲染精准度。在预训练阶段,模型基于千万量级合成数据学习字形,覆盖了通用规范汉字表的8105个汉字;在SFT阶段,引入真实世界文本图像数据,进一步提升了在字体、排版布局上的泛化能力;而在RL(Reinforcement Learning,即强化学习)阶段,融入OCR与美学双奖励模型,更是提升了文本准确性与背景融合的自然度。

值得一提的是,通过对prompt中指定渲染的文本采用字符级编码,LongCat-Image大幅降低了模型记忆负担,实现了文字生成学习效率的跨越式提升。这一系列技术革新,使得LongCat-Image能够有效支持海报设计、商业广告作图等场景中复杂笔画结构汉字的渲染,以及古诗词插图、对联、门店招牌、文字Logo等设计场景的生僻字渲染。

LongCat-Image图像生成模型
LongCat-Image图像生成模型

除了在图像编辑和文字生成方面的卓越表现,LongCat-Image还通过系统性的数据筛选与对抗训练框架,显著提升了出图纹理细节和真实感。在预训练和中期训练阶段,模型严格过滤AIGC数据,避免了陷入“塑料感”纹理的局部最优;在SFT阶段,所有数据均经过人工精筛,以对齐大众审美;而在RL阶段,创新性地引入AIGC内容检测器作为奖励模型,利用其对抗信号逆向引导模型学习真实世界的物理纹理、光影和质感。这些措施共同作用,使得LongCat-Image生成的图像在细节和真实感上达到了新的高度。

LongCat-Image图像生成模型

在客观基准评测中,LongCat-Image的综合性能得到了充分验证。在图像编辑任务中,该模型在ImgEdit-Bench(得分4.50)、GEdit-Bench中英文得分(7.60/7.64)等关键指标上均达到了开源SOTA水平,且逼近头部闭源模型水平。

LongCat-Image图像生成模型

在文字渲染方面,ChineseWord评测以90.7分的高分大幅领先所有参评模型,实现了常用字、生僻字的全量精准覆盖。在文生图任务上,GenEval 0.87分、DPG-Bench 86.8分的出色表现,使得LongCat-Image在生图基础能力上相比头部开源与闭源模型依然具备强竞争力。

在综合主观评测中,LongCat-Image同样表现出色。采用业界公认的主观评价方法,对模型在“文生图”与“图像编辑”两大核心场景下的表现进行了系统评估。在文生图方面,通过大规模的人工主观评分(MOS)方法,覆盖文本-图像对齐、视觉合理度、视觉真实度、美学质量四个维度,LongCat-Image在真实度方面相比主流开闭源模型表现出色,同时在文本-图像对齐与合理度上达到开源SOTA水平。

LongCat-Image图像生成模型
LongCat-Image图像生成模型

在图像编辑方面,采用严格的并列对比评估(Side-by-Side, SBS)方法,聚焦于综合编辑质量、视觉一致性这两个用户体验的维度,评测结果表明,尽管与Nano Banana、Seedream 4.0等商业模型存在一定差距,但LongCat-Image显著超越了其他开源方案。

美团LongCat团队全面开源了文生图的多阶段模型(Mid-training、Post-training)和图像编辑模型。目前,LongCat-Image模型的相关资源已上线Hugging Face和GitHub平台。