自回归模型胜过扩散模型：用于可扩展图像生成的 Llama

📜 文献卡

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
作者: Peize Sun; Yi Jiang; Shoufa Chen; Shilong Zhang; Bingyue Peng; Ping Luo; Zehuan Yuan
DOI: 10.48550/arXiv.2406.06525
摘要: We introduce LlamaGen, a new family of image generation models that apply original ``next-token prediction’’ paradigm of large language models to visual generation domain. It is an affirmative answer to whether vanilla autoregressive models, e.g., Llama, without inductive biases on visual signals can achieve state-of-the-art image generation performance if scaling properly. We reexamine design spaces of image tokenizers, scalability properties of image generation models, and their training data quality. The outcome of this exploration consists of: (1) An image tokenizer with downsample ratio of 16, reconstruction quality of 0.94 rFID and codebook usage of 97% on ImageNet benchmark. (2) A series of class-conditional image generation models ranging from 111M to 3.1B parameters, achieving 2.18 FID on ImageNet 256x256 benchmarks, outperforming the popular diffusion models such as LDM, DiT. (3) A text-conditional image generation model with 775M parameters, from two-stage training on LAION-COCO and high aesthetics quality images, demonstrating competitive performance of visual quality and text alignment. (4) We verify the effectiveness of LLM serving frameworks in optimizing the inference speed of image generation models and achieve 326% - 414% speedup. We release all models and codes to facilitate open-source community of visual generation and multimodal foundation models.
GitHub（pytorch）: https://github.com/foundationvision/llamagen

⚙️ 内容

本研究介绍了LlamaGen，这是一个新型图像生成模型系列，它将大型语言模型（LLMs）的“下一个令牌预测”范式应用于视觉生成领域。LlamaGen探索了是否未经视觉信号归纳偏置调整的原始自回归模型，如Llama，通过适当扩展后能实现顶尖的图像生成性能。研究重新审视了图像分块器的设计空间、图像生成模型的可扩展性属性以及训练数据质量。

💡 创新点

LlamaGen家族模型：引入了一种新的图像生成模型系列，首次在视觉领域成功应用了大型语言模型的自回归机制。
高效图像分块器：开发了一个图像分块器，具有16倍的下采样率、在ImageNet基准上达到0.94的rFID重建质量和97%的代码本使用率。
性能超越：构建了一系列从1.11亿到31亿参数的类别条件图像生成模型，在ImageNet 256x256基准上取得了2.18的FID得分，优于流行的扩散模型如LDM和DiT。
文本条件图像生成：提出一个7.75亿参数的文本条件图像生成模型，通过两阶段训练在LAION-COCO和高质量美学图像上，展现了视觉质量和文本对齐的竞争力。
推理速度优化：验证了LLM服务框架在优化图像生成模型推理速度上的有效性，实现了326%至414%的加速。
统一模型理念：致力于推动自回归模型在图像生成领域的边界，旨在减少视觉信号上的归纳偏置，采用与LLM相同的架构，为语言和视觉的潜在统一模型铺路。

🧩 不足

数据和模型限制：文本条件模型存在一些局限性，如文本渲染错误、计数错误和常见误解，这些问题需要更多训练数据和计算资源来缓解。
分辨率提升空间：虽然模型在512x512分辨率下表现良好，但作者指出进一步增加到1024x1024分辨率可能会带来更好的视觉质量，这留待未来研究。

🔁 实验卡

💧 数据

训练数据来源：使用了5000万张来自LAION-COCO的子集和1000万张内部高美学质量图像作为训练数据。这些图像经过筛选以确保有效URL、美学评分、水印评分、CLIP图像-文本相似度和图像尺寸。
文本预处理：利用预训练的FLAN-T5 XL生成图像描述的文本嵌入，图像代码仅从原始图像中心裁剪提取。

👩🏻‍💻 方法

模型架构：LlamaGen基于自回归模型，采用与LLM一致的架构，降低了视觉信号上的归纳偏置。
两阶段训练：先对图像分块器进行微调，然后进行两阶段训练，包括LAION-COCO数据和内部高质量图像，后者由LLaVA生成长描述性文本。

🔬 实验

性能评估：通过FID、IS、精度和召回率等指标在ImageNet 256x256基准上评估模型性能，展示了LlamaGen模型在不同参数量级下的优越性。
CFG效果：研究了分类器自由引导(CFG)的影响，发现CFG=2.0时模型性能最优，进一步增加CFG会降低FID，同时平衡多样性与保真度。

📜 结论

LlamaGen系列模型证明了自回归方法在适当规模下能够超越扩散模型，成为可扩展的图像生成解决方案。通过精心设计的图像分块器、大规模模型和高质量训练数据，LlamaGen不仅在类别条件图像生成上取得突破，在文本条件图像生成方面也展示出竞争力。此外，研究还强调了LLM服务框架在提高模型推理速度上的作用，并公开了所有模型和代码以促进视觉生成和多模态基础模型的开源社区发展。

🤔 总结卡

该研究通过LlamaGen模型展示了自回归方法在图像生成任务中的巨大潜力，特别是其在不依赖特定视觉信号归纳偏置的情况下，通过大规模扩展和高质量数据训练达到了前所未有的性能水平。然而，存在的局限性和对未来研究方向的展望（如更高分辨率的图像生成）提示，进一步的研究可以通过增加训练数据量和提高计算能力来继续提升模型的表现，尤其是在文本-图像对齐的准确性以及解决当前模型存在的具体错误方面。此外，对模型推理速度的优化策略是实际应用中的一个重要考虑因素，LlamaGen在这方面也做出了积极贡献。