智谱登顶DPG-Bench榜首 发布首个汉字生成开源模型CogView4,

智谱登顶DPG-Bench榜首 发布首个汉字生成开源模型CogView4,

2025年3月4日,智谱AI宣布推出「智谱2025开源年」的首个重磅模型——CogView4,这是全球首个支持生成汉字的开源文生图模型,同时以综合评分第一的成绩登顶DPG-Bench基准测试,成为开源文生图领域的SOTA(最先进水平)。

技术突破:复杂语义对齐与指令跟随能力

CogView4采用GLM-4编码器替代传统T5架构,通过中英双语图文对训练,实现双语提示词精准解析,并支持任意长度文本输入与任意分辨率图像生成(512×512至2048×2048)。

采用二维旋转位置编码(2D RoPE)和Flow-matching扩散建模技术,结合多阶段训练策略(基础分辨率→泛分辨率→高质量微调→人类偏好对齐),显著提升训练效率与生成质量。

中文理解与生成能力

首创支持汉字元素自然融入画面,可精准还原古诗文意境(如“野径云俱黑,江船火独明”)及中英文混合提示词(如海报文案配图)。

在DPG-Bench测试中,其复杂语义对齐能力与指令跟随能力均居开源模型首位。

开源生态与协议支持

遵循Apache 2.0协议,允许自由使用、修改和分发,后续将扩展ControlNet、ComfyUI等工具生态,并推出微调工具包。

最新版本CogView4-0304已开源,3月13日登陆智谱清言平台(chatglm.cn),MaaS平台同步接入中。

应用场景

广告与短视频:快速生成中英双语海报、四格漫画等创意内容。

艺术与教育:将文学作品、古诗意境转化为视觉画面,辅助教学与创作。

商业与工业设计:支持超长提示词生成高精度图像,满足复杂需求。

开源年战略深化

作为国内最早的开源大模型公司,智谱宣布2025年为“开源年”,计划陆续开源基础模型、推理模型、多模态模型及Agent模型,推动AI普惠化。此次CogView4的发布,标志着其在多模态领域的技术领先性,也为开发者与创意工作者提供了更强大的工具。

体验可访问:

在线平台:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

开源仓库:https://github.com/THUDM/CogView4

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索