您的位置:首页 > 房产 > 建筑 > 中国域名根服务器_深圳知名网站设计公司排名_百度教育官网_上海百度推广排名优化

中国域名根服务器_深圳知名网站设计公司排名_百度教育官网_上海百度推广排名优化

2024/12/23 11:28:04 来源:https://blog.csdn.net/2401_85576118/article/details/144071260  浏览:    关键词:中国域名根服务器_深圳知名网站设计公司排名_百度教育官网_上海百度推广排名优化
中国域名根服务器_深圳知名网站设计公司排名_百度教育官网_上海百度推广排名优化

论文速读|Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs

论文信息:

简介:

      本文探讨的背景是多模态大型语言模型(MLLMs),这类模型通过结合视觉特征和文本空间来增强语言模型的能力。尽管MLLMs在视觉-语言任务中取得了显著的性能,但它们往往表现出过度自信,并可能提供与图像内容不一致的问题性回应。为了提高MLLMs的可信度,对齐人类偏好是一个有效的方法,但获取人类偏好标注既昂贵又费力。因此,近期的工作采用评估模型来自动构建偏好数据集,以评估MLLMs的回应。然而,MLLMs的回应通常较长且复杂,需要多样化的推理技能,单一评估模型可能无法完全具备这些技能。本文动机在于现有的评估模型(Eval-M)在评估MLLMs的回应时存在局限性,特别是在处理MLLMs的长且组合性的回应时。此外,现有的方法主要依赖于封闭源评估模型,这不仅成本高昂,而且不够透明。为了克服这些限制,本文提出了一个可分解的框架DecompGen,它使用一组开源专家模型来提供对MLLMs回应的细粒度评估,并自动构建偏好数据集。

论文方法:

      本文提出了一个名为DecompGen的框架,它通过以下几个步骤来实现:

      1)响应分解(Response Decomposition)

       DecompGen将MLLMs的回应分解为与视觉检查相关的短小部分,然后将每个部分进一步分解为原子验证任务。这些任务包括对象存在验证、对象关系验证、对象属性验证、对象计数验证和图像文本验证。

      2)专家模型执行(Expert Execution)

       在分解回应为原子验证任务后,DecompGen会动态组装并执行专家模型,每个模型负责一个特定的原子验证任务。这些专家模型包括对象检测模型、视觉问答模型(VQA)和光学字符识别(OCR)工具等。

      3)偏好数据生成(Preference Data Generation)

       DecompGen使用从专家模型执行中获得的细粒度反馈分数来构建偏好数据集DGPref。这个数据集用于通过直接偏好优化(DPO)方法对MLLMs进行偏好对齐。

      4)模型对齐(Model Alignment)

       使用DGPref数据集,MLLMs通过DPO进行偏好学习,以最大化选择偏好回应与拒绝回应之间的奖励差异。

论文实验:

       论文使用了三个基准数据集来评估MLLMs的幻觉(hallucinations)问题。

       论文中使用了两个MLLMs作为基础模型:LLaVA-v1.5和Qwen-VL-Chat,两者都有7B模型参数。

       为了构建DGPref,使用了Visual Genome(VG)作为图像源,产生了16k图像和52k偏好数据样本。

       在DPO训练中,为了参数效率,采用了低秩适应(LoRA)技术,并且设置采样温度为0,生成的最大长度为1024。

       与基础MLLMs比较:偏好学习后,DGPrefLLaVA和DGPrefQwen在幻觉率上有显著下降,同时保持或提高了信息丰富度。

       与基线比较:使用偏好数据的方法通常比仅使用解码策略的方法表现更好。DGPrefQwen在错误率上与最强的基线相当或更低,同时在幻觉缓解和信息丰富度之间取得了更好的平衡。

       消融研究:分析了考虑的检查方面、专家模型性能和图像源对DecompGen偏好数据收集的影响。

论文链接:

https://arxiv.org/pdf/2411.13697

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com