近年来,视觉语言模型(VLM)领域取得了显著进展,多个研究团队在模型架构、多模态融合、以及应用拓展等方面提出了创新方法,推动了该领域的快速发展。
Qwen2-VL-72B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最新的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA等。此外,VLM-R1是一款基于强化学习技术的视觉语言模型,能够通过自然语言指令精确定位图像目标,并支持多模态推理。
这些创新不仅提升了视觉语言模型在多模态任务中的性能,还为未来的研究和应用提供了新的方向和思路。我整理了7篇【视觉语言模型】的经典论文,全部论文PDF版,工中号 沃的顶会 回复“7VLM”即可领取~
VisualGPT:Data-efficient Adaptation of Pretrained Language Models for Image Captioning
文章解析
VisualGPT是一个在CVPR 2022上发表的项目,旨在通过数据高效的方式将预训练语言模型(如 GPT-2)适应于图像描述任务。
该项目通过引入一种新颖的自恢复编码器-解码器注意力机制,快速将预训练语言模型适应到少量的领域特定图像-文本数据中。
VisualGPT在仅使用MS COCO和Conceptual Captions数据集的少量样本(0.1%, 0.5%, 和 1%)进行微调时,展现出显著优于基线的性能,尤其是在CIDEr评分指标上。
创新点
自恢复激活单元(SRAU):提出了一种新的自恢复激活单元,能够产生稀疏激活,防止预训练语言知识的意外覆盖。
数据高效适应:VisualGPT通过少量的领域特定数据快速适应预训练语言模型,显著提升了数据效率。
多模态融合:通过自恢复编码器-解码器注意力机制,平衡视觉输入和预训练语言模型的先验知识。
研究方法
模型架构:VisualGPT采用编码器-解码器架构,其中解码器的参数初始化来自预训练语言模型(如 GPT-2),而编码器层则随机初始化。
自恢复激活单元:该机制能够产生稀疏激活,减少预训练权重的意外覆盖,同时避免梯度消失问题。
实验验证:通过在MS COCO和Conceptual Captions数据集上进行实验,验证了VisualGPT在不同数据量下的性能。
研究结论
实验结果表明,VisualGPT在仅使用 0.1%、0.5% 和 1% 的训练集时,性能显著优于多个基线模型,CIDEr评分在MS COCO上提升了10.0%,在Conceptual Captions上提升了 17.9%。
此外,VisualGPT在 IU X-ray医疗报告生成数据集上达到了最先进的结果。这些结果证明了VisualGPT在图像描述任务中的高效适应能力和强大的生成性能。
PaLI:A Jointly-Scaled Multilingual Language-Image Model
文章解析
PaLI(Pathways Language and Image model)是由谷歌研究院提出的一种多语言视觉语言模型,旨在通过联合扩展语言和视觉组件来提升模型在多种任务上的性能。
PaLI通过利用大型预训练编码器-解码器语言模型和Vision Transformers(ViTs),在多语言和多模态任务中表现出色。
创新点
联合扩展视觉和语言组件:PaLI通过联合扩展视觉和语言组件,显著提升了模型的性能。这种扩展方法在未饱和状态下,能够充分利用大型预训练模型的能力。
自监督和全监督混合训练:PaLI采用自监督和全监督的混合训练方法,通过对比预训练的视觉模型和语言模型,实现了在多种任务上的性能提升。
多语言多模态任务的通用接口:PaLI通过“图像+答案”的建模接口,将多种视觉和语言任务转化为通用的视觉问答(VQA)类型任务,促进了跨任务的知识共享。
研究方法
模型架构:PaLI采用编码器-解码器架构,其中视觉组件使用对比预训练的Vision Transformers(ViTs),语言组件使用预训练的编码器-解码器模型。
多语言混合训练:PaLI的训练数据集包含超过100种语言的100亿张图像和文本,通过大规模多语言混合训练,提升了模型的多语言能力和多模态理解能力。
实验验证:通过在多个视觉和语言任务上的实验,验证了PaLI在图像描述、视觉问答、场景文本理解等任务上的性能。
研究结论
PaLI在多个视觉和语言任务上达到了最先进的性能,包括图像描述、视觉问答、场景文本理解等。
PaLI的设计简单、模块化且可扩展,能够有效利用大规模预训练模型的能力,为多模态任务提供了强大的解决方案。