ITCOW牛新网 1月14日消息,智谱AI与华为今日联合开源新一代图像生成模型GLM-Image,该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成全流程训练,成为首个在国产芯片上完成训练的SOTA多模态模型。

GLM-Image采用创新的“自回归+扩散解码器”混合架构,实现了图像生成与语言模型的联合,面向以Nano Banana Pro为代表的新一代“认知型生成”技术范式进行探索。该模型在文字渲染方面表现突出,在CVTG-2K和LongText-Bench榜单中获得开源第一,特别擅长汉字生成任务。

智谱与华为联合发布GLM-Image多模态模型

据ITCOW牛新网了解,GLM-Image的API调用模式下,生成单张图片成本仅需0.1元,具备较高的性价比。模型支持从1024×1024到2048×2048多种分辨率的图像生成,无需重新训练即可自适应处理不同尺寸。、

GLM-Image架构图
GLM-Image架构图
GLM-Image架构图

在实际应用场景中,GLM-Image展现出多方面的能力优势。在科普插画生成方面,模型能够准确呈现复杂逻辑流程与文字说明;在多格图画创作中,可保持风格和主体的一致性;同时还能胜任社交媒体图文封面、商业海报以及写实摄影等多种任务。

GLM-Image生成的科普插画示例
GLM-Image生成的科普插画示例
GLM-Image生成的电商图、漫画等多格图画
在生成电商图、漫画等多格图画时,GLM-Image能够保持风格和主体的一致性,并保障多处文字生成的准确率。
GLM-Image生成的各种景别和尺寸的人像、宠物、风景、静物
GLM-Image生成的各种景别和尺寸的人像、宠物、风景、静物

此次合作验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性,为国产计算生态的发展提供了重要参考。模型已在GitHub、Hugging Face和魔搭社区等平台开源,用户可通过在线体验平台或API接入方式使用。

在线体验

API接入

开源部署

GLM-Image技术报告https://z.ai/blog/glm-image