Flamingo: a Visual Language Model for Few-Shot Learning

发表时间：NeurIPS 2022

论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/960a172bc7fbf0177ccccbb411a7d800-Paper-Conference.pdf

作者单位：DeepMind

Motivation：仅使用少量注释示例可以快速适应新任务的构建模型是多模态机器学习研究的一个开放挑战。CLIP 的出现使得多模态模型有了 zero-shot 的能力，可以说是多模态领域里程碑式的工作。然而，CLIP 终归是一个表征模型，其能支持的任务也只能是分类、检索这一类任务。

解决方法：本文提出 Flamingo，Flamingo 的结构创新的优势有三：一是可以桥接预训练好的视觉模型和语言模型；二是可以处理任意交错的图文对数据；三是可以同时以图像和视频数据作为输入。有了这些优势，Flamingo 就能在规模巨大的互联网图文交错数据上进行训练。从而，Flamingo 结合 prompt 实现了多模态领域的 few-shot learning (in-context learning) 能力。

实现方式：Flamingo 是一类视觉语言模型 (VLM)，它将与文本交错的输入视觉数据作为输入，并生成自由形式的文本作为输出。同时，我们特别保留了大量基准，这些基准尚未用于验证该方法的任何设计决策或超参数。我们使用这些来估计无偏的few-shot性能。

总体结构：Flamingo的框架图，主要由视觉编码器（vision encoder）、感知重采样器（perceiver resampler）、LLM和交织在LLM中的门控交叉注意力层（gated xattn-dense）组成。

GATED XATTN-DENSE layers：为了将 LM 可以接受视觉的输入，我们在现有的预训练和冻结的 LM 层之间插入新的交叉注意力层。这些层中的键和值是从视觉特征中获得的，而查询来自语言输入。紧随其后的是密集的前馈层。这些层是门控的，以便 LM 在初始化时保持完整，以提高稳定性和性能。控注意力单元的设计，门控单元由交叉注意力机制和门控结构、FFW交替组成，其中交叉注意力的k和v都是感知重采样器的输出，而q则是文本输入。为了保证在训练初始阶段模型和原先的LLM不至于偏差太远，作者采用了门控机制，具体来说就是将新层的输出乘上一个可学习的tanh⁡(a)，将LLM的原先输入与其加和，只需要在初始化时候将a=0即可确保初始化时候和原先LLM无太大偏差。作者对在训练过程中每一LM层的a变化进行了可视化，可发现两个规律，第一随着层数加深，门控值则更大，第二随着训练过程，门控值也逐渐变大，这个倒是符合我们的认识，浅层提取基础特征而深层则更加富有语义信息，因此在深层中的门控更大有利于引入更多的视觉语义信息。

Vision Encoder:从像素到特征。视觉编码器采用NFNet（NormalizerFree ResNet），作者先在图文对数据上采用CLIP的方式对NFNet进行预训练，随后进行参数固定。如果视觉端输入是视频，则按照1 fps进行采样后将N帧进行视觉特征提取（若是图片输入，则N=1），注意到此时position embedding按照帧粒度组织，即是同一帧的不同patch共用一个position embedding以建模帧间序列信息。尔后对多帧的特征进行展开、拼接，作为transformer的k和v，而采用一个可学习的query向量作为transformer的q输入。感知重采样机制的一个好处就是，可以将变长的视频输入转变为定长的输入，此处定长的输入长度为64。

Perceiver Resampler: 从不同大小的大特征图到很少的视觉标记。我们学习了一组预定义的潜在输入查询，这些查询被馈送到 Transformer 并交叉关注视觉特征（learned latent queries的数量等于Perceiver Resampler输出的token的数量）。

Interleaving new GATED XATTN-DENSE layers within a frozen pretrained LM：我们冻结预训练的 LM 块，并插入门控交叉注意力密集块，插入的GATED XATTN-DENSE layers有复杂度和效果上的权衡，加太多会增大模型复杂度，因此，add a GATED XATTN-DENSE every fourth layer。

实验：

数据集:在本工作中，作者不仅仅构建了图文对数据（LTIP），而且还构建了视频对数据（VTP）和图文交织数据。图文交织数据（M3W: Interleaved image and text dataset）指的是图片和文本进行多次交织组成的数据，图片会穿插在文本上下文中，而不是简单的图文一对一的关系数据。作者通过解析大概4.3千万个网页的DOM，构建了图文交织数据，如Fig 4.所示，图片穿插在了文章上下文中，而上文和下文可能和该图片都由语义关联。

M3W: Interleaved image and text dataset：Flamingo 模型的few-shot 能力依赖于对交错文本和图像数据进行训练。为此，我们收集了多模态MassiveWeb(M3W)数据集。

Interleaved visual data and text support.

Flamingo 的训练还有一个关键点，就是如何处理图文交错数据。首先每张图片的特征用 vision encoder + resampler 处理得到固定长度的 token 序列(前面提到的learned latent queries的数量等于Perceiver Resampler输出的token的数量)，在文本序列中用 <image> 这个 tag 来标记出图像的位置。值得一提的是，每个文本 token 只会 attend 到之前最近的一张图片，而不是所有之前的图片，之前的其他图片会被 mask 掉。

Pairs of image/video and text. 对于我们的图像和文本对，我们首先利用ALIGN[50]数据集，该数据集由180亿个图像和Alt-text配对组成。

消融实验：

是否采用全量数据？特别是对M3W图文交织数据的有无进行了消融，我们发现图文交织数据能提供大约17%的提升。
是否采用门控机制？实验证明采用门控机制能带来约8%的提升。
采用交叉注意力层的频率？实验证明每一层都引入门控交叉注意力层效果是最好的，但是增大复杂度。
是否采用感知重采样单元引入视觉信息？实验证明该设计能带来约4%的提升。
视觉编码器的选择同样对结果影响巨大：Our NFNet-F6 has a +5.8% advantage over the CLIP ViT-L/14 and +8.0% over a smaller NFNet-F0 encoder。
是否固定LLM的参数？实验证明固定LLM反而能带来最好的效果，而让LLM随着训练一起进行（会采用massive text数据集一起训练）反而效果会差8%左右，笔者估计是训练过程需要平衡多个目标导致的，如何让LLM也能训练起来可能也是一个值得关注的点。

结论：

模型越大，few-shot性能越好。
虽然不是我们工作的主要焦点，但我们验证了当给定更多数据时，Flamingo 模型可以通过微调它们的权重来适应任务。
Freezing LLM components prevents catastrophic forgetting. 通过实验证明冻结LM会缓解灾难性遗忘。
我们的结果表明，将预训练的大型语言模型与强大的视觉模型连接起来是通用视觉理解的重要一步。

Flamingo: a Visual Language Model for Few-Shot Learning

最新新闻

热搜词