由智谱 AI 与华为联合研发的多模态图像生成模型GLM-Image已正式开源并上线模力方舟。凭借领先的混合架构设计与强大的指令理解能力,GLM-Image一经发布便登顶多项榜单,打破了长期以来海外模型在开源图像生成领域的垄断格局。

更具标志性意义的是:GLM-Image 是首个在国产芯片上完成全流程训练的 SOTA 多模态模型,在技术突破之外,也代表了国产 AI 生态迈入自主可控新阶段,访问链接即可在线体验:
https://moark.com/serverless-api?model=GLM-Image

全流程国产算力训练,打破「卡脖子」依赖
GLM-Image 从数据预处理到大规模预训练,全程运行在华为昇腾 Atlas 800T A2 芯片与昇思 MindSpore 框架上,实现了真正意义上的国产全栈 AI 训练。
这不仅验证了昇腾芯片在复杂图像生成任务上的能力,也证明了国产软硬件组合具备支撑千亿级模型训练的工程能力。
除了GLM-Image部署在模力方舟的昇腾 Ascend 910上外,模力方舟算力市场也已全面接入昇腾算力资源,开发者可即刻在线调用 MindSpore 兼容镜像,测试部署多个国产模型。

支持图文生成、图像编辑与风格迁移
GLM-Image 不仅支持高质量的文本生成图像(Text-to-Image),还提供多个增强能力,适用于更广泛的生成场景:

- 图像编辑:基于参考图像内容进行局部修改,保留高频细节;
- 风格迁移:在保持人物身份一致的同时,改变画风、背景或姿态;
- 多图一致性生成:适用于角色设定、IP 创作等需要连贯视觉表达的任务。

这些能力让 GLM-Image 不仅是一个文本到图像的模型,更是一个具备视觉理解和表达能力的多模态生成引擎。
混合架构设计,更懂中文的图像生成
在架构设计上,GLM-Image并未照搬国外主流路线,而是创新性地采用「自回归 + 扩散解码」的混合架构:
- 自回归部分:基于 GLM-4-9B-0414,负责理解文本、解析复杂指令,并生成语义 token;
- 扩散解码器:借鉴 CogView4 设计,基于单流 DiT 架构,精细还原图像细节并增强现实感。

这种分工协作机制,使模型在两个维度都表现出色:
- 语义理解:能精准生成带知识密度的图像(如商业海报、科普插画);
- 细节表现:具备高保真、强一致性的图像渲染能力,尤其在中文文字绘制上表现优异。
过去生成中文字常出现错别字、乱码问题,GLM-Image则通过 Glyph-byT5 轻量字符编码模型和专门的 OCR 奖励优化,首次在开源模型中实现了较高的中文文本还原率。
后训练强化优化,兼顾美学与可控性
在训练后期,GLM-Image 采用了解耦式的强化学习方案,分别优化自回归与扩散模块:
- 自回归模块:聚焦语义对齐与美学评分,提升指令遵循与艺术表现;
- 扩散模块:聚焦细节还原与文本精度,通过 LPIPS、OCR 等指标进一步增强图像质量。
这使得模型生成结果不仅画得对,也画得美。

即刻在线试用:在模力方舟体验国产高质量图像生成
GLM-Image模型现已接入模力方舟平台昇腾算力,支持通过 API 或在线页面调用,欢迎开发者前往体验:
https://moark.com/serverless-api?model=GLM-Image
