摘要:近期,开源多模态大型语言模型(MLLMs)的进展主要集中在增强基础能力上,而在与人类偏好的对齐方面仍存在显著差距。本文介绍了OmniAlign-V,这是一个包含20万个高质量训练样本的综合数据集,涵盖了多样化的图像、复杂的问题和多样的回答格式,旨在提高MLLMs与人类偏好的对齐程度。我们还提出了MM-AlignBench,这是一个专门设计用于评估MLLMs与人类价值观对齐程度的人工标注基准。实验结果表明,使用监督微调(SFT)或直接偏好优化(DPO)方法对MLLMs进行OmniAlign-V微调,能够显著提升与人类偏好的对齐程度,同时在标准视觉问答(VQA)基准测试上的表现保持不变或有所增强,保持了其基础能力。我们的数据集、基准、代码和检查点已发布在https://github.com/PhoenixZ810/OmniAlign-V。Huggingface链接:Paper page,论文链接:2502.18411
一、引言
近年来,随着大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的快速发展,模型的基础能力得到了显著提升。然而,尽管开源MLLMs在客观指标上取得了与专有模型相当甚至更优的性能,但在与人类偏好的对齐方面仍存在显著差距。这种差距对用户体验产生了不利影响。因此,如何提高MLLMs与人类偏好的对齐成为了一个亟待解决的问题。
二、背景与动机
多模态大型语言模型(MLLMs)通常通过将视觉编码器与预训练的LLM相结合,并通过视觉指令微调来开发。现有的视觉指令微调数据集和多模态评估基准主要侧重于评估MLLMs的基础能力,如物体识别、OCR等,而对人类偏好对齐的关注较少。这导致开源MLLMs在基础任务上表现出色,但在处理需要知识丰富、开放式回答的问题时,与人类偏好的对齐程度较低。
本文首先进行了一项初步研究,以定量评估MLLMs在人类偏好对齐方面的退化情况。实验结果表明,经过多模态微调后,MLLMs在文本主观评估基准上的表现显著下降。这表明,现有的多模态微调方法在提高基础能力的同时,可能牺牲了与人类偏好的对齐。
为了解决这个问题,本文提出了OmniAlign-V数据集,旨在通过提供高质量、多样化的多模态训练样本来提高MLLMs与人类偏好的对齐程度。同时,本文还引入了MM-AlignBench基准,用于专门评估MLLMs与人类价值观的对齐程度。
三、OmniAlign-V数据集
3.1 数据集概述
OmniAlign-V是一个包含约20万个高质量训练样本的综合数据集,这些样本由多样化的图像、复杂的问题和多样化的回答格式组成。该数据集的目的是提高MLLMs与人类偏好的对齐程度。
3.2 图像来源与选择策略
OmniAlign-V的图像来源包括自然图像和信息图表(如海报和图表)。为了从自然图像集合中筛选出语义丰富的图像,本文开发了一种新的图像选择策略。该策略首先使用图像复杂度(IC)识别模型IC9600为图像分配IC分数,然后排除低语义内容的图像。接着,使用识别任何事物模型(RAM)来识别图像中的对象,进一步过滤掉高复杂度但内容无意义的图像。
3.3 任务分类与数据生成
根据图像内容,本文将任务分为自然图像任务和信息图表任务两大类。对于自然图像,定义了知识、推断和创造三种主要任务,每种任务都需要多样化和复杂的问题格式以及全面、有理由的回答。对于信息图表,根据内容的不同,将其分为艺术、图表、图表和海报四种类型,这些类型需要深入理解人类设计的视觉元素。
在数据生成方面,本文设计了一种新的数据合成管道。对于自然图像任务,使用GPT-4o生成多样化和内容相关的问题。对于创造性任务,采用了一种更复杂的管道,首先生成一组种子创造性问题,然后使用轻量级MLLM为每张图像生成详细的标题,接着使用LLM选择器选择相关的问题类型,并使用GPT-4o生成最终的问题和回答。对于信息图表任务,设计了专门的提示来生成与图像内容紧密相关的问题和回答。
3.4 数据质量与后处理
为了提高合成数据的质量,本文实施了一系列后处理方法。包括指令增强知识QA、丰富推断QA和图表后处理细化等。这些方法旨在增强指令遵循能力、提供详细的解释和背景知识,并确保回答的准确性和一致性。
四、MM-AlignBench基准
为了全面评估MLLMs与人类偏好的对齐程度,本文引入了MM-AlignBench基准。该基准是一个包含252个高质量样本的人工标注基准,这些样本由多样化的图像来源和精心设计的问题组成。与现有的多模态人类偏好基准相比,MM-AlignBench具有图像来源多样化、问题重复性低和清晰度高等优点。
五、实验与结果
5.1 SFT与DPO实验
本文进行了广泛的实验来验证OmniAlign-V的有效性。通过将OmniAlign-V与LLaV A-Next-778k相结合,创建了包含946K训练样本的OmniAlign-V混合数据集。实验结果表明,使用OmniAlign-V进行微调可以显著提高MLLMs在人类偏好对齐方面的表现,同时在标准VQA基准测试上的性能保持不变或有所增强。
此外,本文还探索了DPO(直接偏好优化)方法。实验结果表明,在SFT阶段使用OmniAlign-V进行微调的模型,在DPO阶段可以进一步提高在人类偏好对齐方面的表现。这表明,如果模型在SFT阶段已经接触到了与人类偏好对齐的数据(如开放式或长上下文数据),那么在DPO阶段使用高质量的人类对齐数据进行训练可以显著激活模型的能力。
5.2 MM-AlignBench评估
本文使用MM-AlignBench对多种最先进的MLLMs进行了评估。实验结果表明,封闭源模型(如GPT、Claude和Gemini)在人类偏好对齐方面表现出色,而开源模型则相对较弱。这表明,在开发MLLMs时,应优先考虑与人类偏好的对齐。此外,使用OmniAlign-V进行微调的模型(如LLaV A-OA-32B)在MM-AlignBench上的表现优于许多强大的MLLMs,甚至接近Qwen2VL-72B的性能。
5.3 消融研究
为了评估OmniAlign-V中每个子集的有效性,本文进行了消融研究。实验结果表明,随着不同任务的融入,模型在MM-Alignbench、WildVision和MMVet上的性能逐渐提高。特别是,指令遵循数据显著提高了所有三个基准上的性能。这表明,指令遵循能力对于提高MLLMs与人类偏好的对齐程度至关重要。
六、贡献与局限
6.1 主要贡献
- 深入调查:本文深入调查了MLLMs在人类偏好对齐方面的退化情况,并分析了文本和多模态微调数据的影响。
- 数据集提出:本文提出了OmniAlign-V数据集,该数据集通过提供高质量、多样化的多模态训练样本来提高MLLMs与人类偏好的对齐程度。
- 基准引入:本文引入了MM-AlignBench基准,用于专门评估MLLMs与人类价值观的对齐程度。
- 实验验证:本文通过广泛的实验验证了OmniAlign-V和MM-AlignBench的有效性,并展示了它们在提高MLLMs与人类偏好对齐方面的潜力。
6.2 局限性
尽管OmniAlign-V管道易于扩展,但生成复杂、开放式问题仍然具有挑战性。此外,数据集的标注和评估也依赖于人类专家,这可能导致一定的主观性和偏差。未来工作将探索如何进一步提高数据生成的质量和效率,并减少对人类专家的依赖。
七、结论
本文提出了OmniAlign-V数据集和MM-AlignBench基准,旨在提高MLLMs与人类偏好的对齐程度。通过广泛的实验验证,本文展示了它们在提高MLLMs在人类偏好对齐方面的有效性。未来工作将继续探索如何进一步优化数据生成和评估方法,并推动MLLMs在更多实际应用场景中的部署和应用。