AI本地大模型自然语言图像编辑模型 OmniGen2

AIGC工具
6小时前
编辑

叫我帅哥

自然语言图像编辑模型 OmniGen2

OmniGen2 是一个强大且高效的统一多模态模型。其架构由两个关键组件组成：一个3B视觉语言模型（VLM）和一个4B扩散模型。在这个设计中，冻结的3B VLM (Qwen-VL-2.5) 负责解释视觉信号和用户指令，而4B扩散模型则利用这种理解来执行高质量的图像生成。

这种双组件架构在四个主要能力上表现出色：

视觉理解：从其Qwen-VL-2.5基础继承了强大的图像内容解释和分析能力。

文本到图像生成：根据文本提示生成高保真度和美观的图像。

指令引导的图像编辑：以高精度执行复杂的基于指令的图像修改，在开源模型中达到最先进的性能。

上下文生成：一种多功能的能力，可以处理并灵活组合各种输入——包括人类、参考对象和场景——以产生新颖且连贯的视觉输出。

作为一个开源项目，OmniGen2为研究可控和个性化生成AI的研究人员和开发者提供了一个强大且资源高效的基石。

开源地址：https://github.com/VectorSpaceLab/OmniGen2

自然语言图像编辑模型 OmniGen2

配置要求：

操作系统：Windows 10/11 64位

内存：24G以上

显卡：至少16G及以上显存的英伟达（NVIDIA）显卡，30系及以上显卡

CUDA：显卡支持的CUDA版本大于等于12.8版本

整个包解压完约66.6G，要留足硬盘空间

下载权限

查看

ღ

免费下载

评论并刷新后下载

登录后下载

查看演示

{{attr.name}}：

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付以后下载请先登录您今天的下载次数（次）用完了，请明天再来支付积分以后下载立即支付支付以后下载立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以每天下载资源次，今日剩余次

{{userData.name}}已认证

AI本地大模型多模态图像生成工作流 Flux-Kontext-dev

AI本地大模型英文海报生成器 PosterCraft