AI本地大模型 自然语言图像编辑模型 OmniGen2

自然语言图像编辑模型 OmniGen2

OmniGen2 是一个强大且高效的统一多模态模型。其架构由两个关键组件组成:一个3B视觉语言模型(VLM)和一个4B扩散模型。在这个设计中,冻结的3B VLM (Qwen-VL-2.5) 负责解释视觉信号和用户指令,而4B扩散模型则利用这种理解来执行高质量的图像生成。

这种双组件架构在四个主要能力上表现出色:

视觉理解:从其Qwen-VL-2.5基础继承了强大的图像内容解释和分析能力。

文本到图像生成:根据文本提示生成高保真度和美观的图像。

指令引导的图像编辑:以高精度执行复杂的基于指令的图像修改,在开源模型中达到最先进的性能。

上下文生成:一种多功能的能力,可以处理并灵活组合各种输入——包括人类、参考对象和场景——以产生新颖且连贯的视觉输出。

作为一个开源项目,OmniGen2为研究可控和个性化生成AI的研究人员和开发者提供了一个强大且资源高效的基石。

开源地址:https://github.com/VectorSpaceLab/OmniGen2

自然语言图像编辑模型 OmniGen2 自然语言图像编辑模型 OmniGen2

配置要求:

操作系统:Windows 10/11 64位

内存:24G以上

显卡:至少16G及以上显存的英伟达(NVIDIA)显卡,30系及以上显卡

CUDA:显卡支持的CUDA版本大于等于12.8版本

整个包解压完约66.6G,要留足硬盘空间

下载权限
查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余

给TA打赏
共{{data.count}}人
人已打赏
AIGC工具

AI本地大模型 图像融合并调整光照 LBM-Relighting

2025-10-31 14:53:26

AIGC工具

AI本地大模型 英文海报生成器 PosterCraft

2025-10-31 15:03:20

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索