项目介绍
简介
Nunchaku 是由 MIT Han Lab 开发的 4位扩散模型高效推理引擎,专为优化生成式模型(如Stable Diffusion)的推理速度和显存占用设计。结合 SVDQuant量化技术,它在保持生成质量的同时显著提升性能。该项目旨在通过量化手段显著减少模型大小,同时保持视觉质量,并提供加速的推理性能。 nunchaku的技术优势有:
- 显存优化:相比传统BF16模型,显存占用减少 3.6倍(例如16GB显存设备可运行更大模型)。
- 速度提升:在16GB显存设备上,推理速度比16位模型快 8.7倍,比传统4位量化(NF4 W4A16)快 3倍。
- 无损生成:通过低秩分解和核融合技术,4位量化模型生成质量与原始模型几乎无差异(参考官方对比图)。
- 兼容性:支持Flux模型生态、Redux、Lora、ControlNet及多显卡架构(NVIDIA Ampere/Ada/A100)。