项目介绍
简介
OmniGen2
是一个强大且高效的统一多模态模型。其架构由两个关键组件组成:一个3B视觉-语言模型(VLM)和一个4B扩散模型。在这个设计中,冻结的3B VLM (Qwen-VL-2.5) 负责解释视觉信号和用户指令,而4B扩散模型则利用这种理解来执行高质量的图像生成。 这种双组件架构在四个主要能力上表现出色:
- 视觉理解:继承了其Qwen-VL-2.5基础的强大能力,能够解释和分析图像内容。
- 文本到图像生成:根据文本提示生成高保真度且美观的图像。
- 指令引导的图像编辑:以高精度执行复杂的基于指令的图像修改,在开源模型中达到最先进的性能。
- 上下文生成:一种多功能的能力,可以处理并灵活组合各种输入——包括人类、参考对象和场景——以生成新颖且连贯的视觉输出。