Skip to content

项目介绍

介绍

BAGEL 是字节跳动开源的类似GPT-4O的7B参数的统一多模态模型。其功能与 GPT-4o 和 Gemini 2.0 等专有系统类似,凭借原生多模态架构,能够实现实用且有价值的图像生成,输出精确、准确且逼真的图像。 BAGEL模型支持视觉内容理解(可用于图等咨询和问答)、文生图、图像编辑、风格迁移等。 由于Bagel模型运行所需显存超过24GB,单卡4090无法运行。因此,本镜像选择了DFloat11量化后的Bagel模型,DFloat11是来自莱斯大学等机构的研究者提出的方案,可以将任何 BFloat16 模型压缩到原始大小的 70%,同时还能在任务上保持 100% 的准确性。Bagel-DFloat11与原本的性能对比如下: alt text Bagel-DFloat11足够支持单卡4090完成所有原版模型支持的任务,并且在实际表现上不弱于原版。