您的位置:首页 > 游戏 > 游戏 > Arxiv AI 综述列表(2024.05.27~2024.05.31) VLM

Arxiv AI 综述列表(2024.05.27~2024.05.31) VLM

2024/7/6 19:28:15 来源:https://blog.csdn.net/qq_44681809/article/details/139357991  浏览:    关键词:Arxiv AI 综述列表(2024.05.27~2024.05.31) VLM

公众号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

每周末更新,完整版进群获取。

Q 群在群文件,VX 群每周末更新。

目录

1. An Introduction to Vision-Language Modeling

1.1 摘要

1.2 VLM 家族

1.3 训练

1.4 评估

1.5 将 VLM 扩展到视频


 

1. An Introduction to Vision-Language Modeling

1.1 摘要

随着大型语言模型(LLM)近来的流行,人们已经尝试将它们扩展到视觉领域。从拥有可视化助手指导我们穿越陌生环境到仅使用高级文本描述生成图像的生成模型,视觉语言模型(VLM)的应用将显著影响我们与技术的关系。然而,有许多挑战需要解决,以提高这些模型的可靠性。虽然语言是离散的,但视觉在一个更高维度的空间中演化,其中概念并不总是容易离散化的。为了更好地理解将视觉映射到语言背后的机制,我们介绍了这个视觉语言模型(VLM)的简介,希望能帮助任何希望进入该领域的人。首先,我们介绍了什么是 VLM,它们是如何工作的,以及如何训练它们。然后,我们介绍和讨论了评估 VLM 的方法。虽然这项工作主要集中在将图像映射到语言上,但我们也讨论了将 VLM 扩展到视频的可能性。 

1.2 VLM 家族

  • 对比训练(Contrastive training)是一种常用的策略,它使用正负样本对。VLM 在预测正样本时被训练为预测相似的表示,而在预测负样本时则被训练为预测不同的表示。
  • 掩蔽(Masking)是另一种策略,给定一个未掩盖的文本标题,可以通过重构缺失的补丁来训练 VLM。类似地,通过在标题中掩盖单词,给定一个未掩盖的图像,可以训练 VLM 来重构这些单词。
  • 生成式 VLM。尽管大多数这些方法利用中间表示或部分重构,但生成式 VLM 是以这样一种方式进行训练的:它们可以生成整个图像或非常长的标题。鉴于这些模型的性质,它们通常是训练成本最高的。
  • 预训练骨干。基于预训练骨干的 VLM 通常利用开源 LLM(如 Llama)来学习图像编码器(也可以是预训练的)与 LLM 之间的映射关系。重要的是要强调这些范例并不是相互排斥的;许多方法依赖于对比、掩盖和生成标准的混合。

1.3 训练

训练 VLM 时需要考虑的重要因素。

  • 数据。是训练 VLM 最重要的方面之一。拥有多样化和平衡的数据集对于学习能够涵盖足够概念的良好世界模型至关重要。删除大规模数据集中经常出现的重复数据也很重要,这将节省大量计算时间并减轻记忆风险。此外,修剪数据也是一个重要组成部分,因为我们希望确保标题确实与图像内容相关。最后,提高标题质量对于增强 VLM 的性能至关重要。
  • 接地(Grounding)。对 VLM 进行接地是确保 VLM 正确将单词与特定概念关联的另一个重要步骤。两种常见的接地方法利用边界框或负标题。
  • 对齐(alignment)是一个必不可少的步骤,以确保模型产生符合人类期望的答案。 

1.4 评估

评估 VLM 的不同方法。

  • 视觉问答(VQA)一直是最常见的方法之一,尽管通过精确字符串匹配比较模型和地面实况答案可能会低估模型性能。
  • 推理(Reasoning)包括给予 VLM 一个标题列表,并使其在此列表中选择最可能的一个。在这个类别中,两个流行的基准是 Winoground [Diwan等人,2022] 和 ARO [Yuksekgonul等人,2023]。
  • 对齐。密集的人类注释(Dense human annotations)可以用来评估模型将标题映射到图像正确部分的能力 [Urbanek等人,2023]。
  • 稳健性。可以使用合成数据,如PUG [Bordes等人,2023],生成不同配置的图像,以评估 VLM 对特定变化的稳健性。

1.5 将 VLM 扩展到视频

到目前为止,我们的重点已经放在了在静态视觉数据上训练和评估的 VLM 上,即图像。然而,视频数据带来了新的挑战,以及模型可能具有的新能力,例如理解物体的运动和动态,或者在空间和时间中定位物体和动作。很快,文本到视频检索、视频问答和生成等任务被认为是基本的计算机视觉任务 [Xu等,2015年,Tapaswi等,2016年,Brooks等,2024年]。

以帧速率为因素(例如,一个 24 帧每秒的视频需要 24 倍的存储/处理,如果每帧被视为一个图像),视频的时间空间挑战了存储、GPU 内存和训练。这需要在视频的 VLM 中进行权衡,例如

  • 以压缩形式的视频(例如 H.264 编码)与数据加载器中的即时视频解码器;
  • 从图像编码器初始化视频编码器;
  • 视频编码器具有空间/时间池化/掩蔽(spatial/temporal pooling/masking)机制 [Fan等,2021年,Feichtenhofer等,2022年];
  • 非端到端的 VLM(离线提取视频特征并训练模型,这些模型接受视频特征而不是像素帧作为输入)

与图像文本模型类似,早期的视频文本模型使用自监督标准从头开始训练视觉和文本成分 [Alayrac等,2016年]。但与图像模型相反,对比视频文本模型并不是首选方法,而是更偏向视频和文本的早期融合和时间对齐 [Sun等,2019年],因为在表示中更多的时间粒度比计算视频的全局表示更有趣。

最近,观察到了与图像语言模型类似的趋势,即视频语言模型:预训练的 LLM 与视频编码器对齐,增强了 LLM 对视频理解的能力。现代技术,如视觉指导调整,也常用于视频,并适应了视频。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com