您的位置:首页 > 教育 > 培训 > 网站排名易下拉教程_福田做网站_近期的重大新闻_上海官网seo

网站排名易下拉教程_福田做网站_近期的重大新闻_上海官网seo

2025/3/20 11:32:34 来源:https://blog.csdn.net/m0_61222152/article/details/146373712  浏览:    关键词:网站排名易下拉教程_福田做网站_近期的重大新闻_上海官网seo
网站排名易下拉教程_福田做网站_近期的重大新闻_上海官网seo

MMedPO: 用临床感知多模态偏好优化调整医学视觉语言模型

    • 1.背景
    • 2.核心问题:
    • 3.方法:
    • 3. 实验结果与优势
    • 4. 技术贡献与意义
    • 5.结论

MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization

MMedPO: 用临床感知多模态偏好优化调整医学视觉语言模型

gitgub:地址

1.背景

医学视觉-语言模型(Med-LVLMs)结合了视觉理解与自然语言处理能力,在疾病诊断、影像报告生成等任务中具有重要应用价值。然而,现有模型存在严重的事实性错误,即幻觉问题(Hallucination),生成的文本与输入医学图像内容不符。例如,模型可能根据预训练知识错误地描述”肺部存在结节“,而实际影像显示正常。这种问题的根源在于模态未对齐(Modality Misalignment),模型过度依赖文本知识,忽视视觉输入的关键信息。

传统方法通过偏好优化(Preference Optimization)对齐多模态数据,但是医学场景的临床相关性(Clinical Relevance)未被充分考虑。现有工作生成的偏好样本(如简单错误答案)缺乏医学意义,导致模型无法有效区分关键错误,对齐效果受限。

2.核心问题:

现有方法的两大缺陷

  • 临床相关性不足:传统偏好样本(如”肺部有结石“)的医学错误过于明显,模型容易区分,但无法纠正更具迷惑性的临床错误(如误诊病灶位置)。
  • 局部病灶忽视:医学影像的关键信息集中与局部病灶区域(如肿瘤、骨折),而现在有方法未针对性引导模型关注这些区域。

研究目标:设计一种临床感知的多模态偏好优化方法,提升模型对医学图像关键区域的理解,减少事实性错误。

3.方法:

提出了 MMedPO,一种临床感知多模态偏好优化方法,以解决 Med-LVLM 中模态不对齐的难题,包含三个关键步骤。

在这里插入图片描述

(1)多模态偏好数据构造

  • 策略1:注入合理医学幻觉
    • 目标:生成具有临床意义的错误回到作为”不偏好样本“(dispreference)。
    • 实现:通过目标Med-LVLM多次采样生成候选回答,用GPT-4o筛选出与真实答案矛盾但医学上合理的错误(如”肺部结节“误诊为”肝脏病变“),确保错误具备临床迷惑性。
  • 策略2:局部病灶噪声干扰
    • 目标:破坏模型对关键病灶区域的视觉理解。
    • 实现:利用医学视觉工具(如MedKLIP)定位病灶区域,仅在局部加入噪声,生成”不偏好“图像-文本对,例如,对CT影像中的肿瘤区域加噪,是模型忽略该区域。

(2)临床相关性量化

  • 文本相关性评分:通过多Med-LLM(multi-agent collaboration system)协作评估回答的临床意义。多个医学大模型(如LLaMa3-Med42、BioMistral)通过辩论机制达成共识,避免单一模型偏差。
  • 视觉置信度评分:利用视觉工具(如病灶检测模型)输出病灶区域置信度,放映局部噪声的可靠性。

(3)临床感知的偏好优化

  • 加权DPO损失:将临床评分作为样本权重,优化目标函数。高临床相关性的样本在训练权重更大,引导模型更关注医学关键错误。

3. 实验结果与优势

  • 数据集:涵盖医学视觉问答(SLAKE、VQA-RAD)和报告生成(IU-Xray、MIMIC-CXR)。
  • 性能对比
    • Med-VQA任务:MMedPO在开放性问题(Open)上平均提升14.2%,闭卷问题(Closed)提升51.7%。
    • 报告生成任务:BLEU和ROUGE-L指标显著优于基线(如DPO、STLLaVA-Med)。
  • 关键结论
    • 局部噪声优于全局噪声(表4):病灶区域加噪对模型视觉理解提升更显著。
    • 多模型协作评分有效(表3):相比单一Med-LLM,多模型协作提升临床评分可靠性。
    • 兼容性强:适配不同Med-LVLM架构(如LLaVA-Med++)。
      在这里插入图片描述
      在这里插入图片描述

在这里插入图片描述

4. 技术贡献与意义

  • 医学对齐新视角:首次将临床相关性作为偏好样本的权重依据,突破传统偏好优化对“简单区分”样本的依赖。
  • 多模态交互增强:结合文本幻觉注入与视觉局部噪声,同时优化文本-图像对齐和病灶区域关注。
  • 实用价值:为医学模型减少幻觉、提升诊断可靠性提供可扩展框架。

5.结论

在这项工作中,提出了一种临床感知多模态偏好优化方法,该方法在偏好优化中考虑了每个偏好样本的临床相关性。 该方法增强了 Med-LVLM 的对齐性,同时有效减少了事实错误。 具体来说,为了构建多模态偏好数据,我们通过目标 Med-LVLMs 或 GPT-4o 引入似是而非的幻觉,并在关键病变区域应用局部噪声。 此外,我们还通过 Med-LLMs 和视觉工具为数据样本分配临床相关性,然后将这些分数作为权重纳入偏好微调过程。 我们在 Med-VQA 和报告生成任务中对 MMedPO 的有效性进行了评估,结果显示其性能优越。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com