Skip to content

项目简介

UNO是字节跳动研发的AI图像生成框架,突破多主体场景下的生成一致性难题。UNO基于扩散变换器架构,通过创新的数据合成管道生成高一致性多主体训练数据。其核心突破在于将文本到图像模型的生成能力迭代升级为多图像控制模型,实现从单主体到复杂场景的平滑过渡。该框架采用两阶段渐进训练策略:第一阶段通过单主体数据微调模型,第二阶段引入多主体数据增强复杂场景处理能力。这种分阶段对齐方式有效解决了传统模型在多主体场景中的属性混淆问题。UNO 的主要功能是

  • 单主体精准控制:根据参考图生成不同场景下的同主体图像,特征保持误差降低67%
  • 多主体自由组合:支持同时输入10个参考主体,生成图像中物体位置精度提升89%
  • 动态分辨率适配:可在512×512至4096×4096范围内任意调整输出尺寸
  • 跨模态风格迁移:将参考主体特征与文本描述风格进行融合生成