网站排名易下拉教程_福田做网站_近期的重大新闻_上海官网seo

MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型

- 1.背景
- 2.核心问题：
- 3.方法：
- 3. 实验结果与优势
- 4. 技术贡献与意义
- 5.结论

MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization

MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型

gitgub:地址

1.背景

医学视觉-语言模型（Med-LVLMs）结合了视觉理解与自然语言处理能力，在疾病诊断、影像报告生成等任务中具有重要应用价值。然而，现有模型存在严重的事实性错误，即幻觉问题（Hallucination），生成的文本与输入医学图像内容不符。例如，模型可能根据预训练知识错误地描述”肺部存在结节“，而实际影像显示正常。这种问题的根源在于模态未对齐（Modality Misalignment），模型过度依赖文本知识，忽视视觉输入的关键信息。

传统方法通过偏好优化（Preference Optimization）对齐多模态数据，但是医学场景的临床相关性（Clinical Relevance）未被充分考虑。现有工作生成的偏好样本（如简单错误答案）缺乏医学意义，导致模型无法有效区分关键错误，对齐效果受限。

2.核心问题：

现有方法的两大缺陷：

临床相关性不足：传统偏好样本（如”肺部有结石“）的医学错误过于明显，模型容易区分，但无法纠正更具迷惑性的临床错误（如误诊病灶位置）。
局部病灶忽视：医学影像的关键信息集中与局部病灶区域（如肿瘤、骨折），而现在有方法未针对性引导模型关注这些区域。

研究目标：设计一种临床感知的多模态偏好优化方法，提升模型对医学图像关键区域的理解，减少事实性错误。

3.方法：

提出了 MMedPO，一种临床感知多模态偏好优化方法，以解决 Med-LVLM 中模态不对齐的难题，包含三个关键步骤。

在这里插入图片描述

（1）多模态偏好数据构造

策略1：注入合理医学幻觉
- 目标：生成具有临床意义的错误回到作为”不偏好样本“（dispreference）。
- 实现：通过目标Med-LVLM多次采样生成候选回答，用GPT-4o筛选出与真实答案矛盾但医学上合理的错误（如”肺部结节“误诊为”肝脏病变“），确保错误具备临床迷惑性。
策略2：局部病灶噪声干扰
- 目标：破坏模型对关键病灶区域的视觉理解。
- 实现：利用医学视觉工具（如MedKLIP）定位病灶区域，仅在局部加入噪声，生成”不偏好“图像-文本对，例如，对CT影像中的肿瘤区域加噪，是模型忽略该区域。

（2）临床相关性量化

文本相关性评分：通过多Med-LLM（multi-agent collaboration system）协作评估回答的临床意义。多个医学大模型（如LLaMa3-Med42、BioMistral）通过辩论机制达成共识，避免单一模型偏差。
视觉置信度评分：利用视觉工具（如病灶检测模型）输出病灶区域置信度，放映局部噪声的可靠性。

（3）临床感知的偏好优化

加权DPO损失：将临床评分作为样本权重，优化目标函数。高临床相关性的样本在训练权重更大，引导模型更关注医学关键错误。

3. 实验结果与优势

数据集：涵盖医学视觉问答（SLAKE、VQA-RAD）和报告生成（IU-Xray、MIMIC-CXR）。
性能对比：
- Med-VQA任务：MMedPO在开放性问题（Open）上平均提升14.2%，闭卷问题（Closed）提升51.7%。
- 报告生成任务：BLEU和ROUGE-L指标显著优于基线（如DPO、STLLaVA-Med）。
关键结论：
- 局部噪声优于全局噪声（表4）：病灶区域加噪对模型视觉理解提升更显著。
- 多模型协作评分有效（表3）：相比单一Med-LLM，多模型协作提升临床评分可靠性。
- 兼容性强：适配不同Med-LVLM架构（如LLaVA-Med++）。

在这里插入图片描述

4. 技术贡献与意义

医学对齐新视角：首次将临床相关性作为偏好样本的权重依据，突破传统偏好优化对“简单区分”样本的依赖。
多模态交互增强：结合文本幻觉注入与视觉局部噪声，同时优化文本-图像对齐和病灶区域关注。
实用价值：为医学模型减少幻觉、提升诊断可靠性提供可扩展框架。

5.结论

在这项工作中，提出了一种临床感知多模态偏好优化方法，该方法在偏好优化中考虑了每个偏好样本的临床相关性。该方法增强了 Med-LVLM 的对齐性，同时有效减少了事实错误。具体来说，为了构建多模态偏好数据，我们通过目标 Med-LVLMs 或 GPT-4o 引入似是而非的幻觉，并在关键病变区域应用局部噪声。此外，我们还通过 Med-LLMs 和视觉工具为数据样本分配临床相关性，然后将这些分数作为权重纳入偏好微调过程。我们在 Med-VQA 和报告生成任务中对 MMedPO 的有效性进行了评估，结果显示其性能优越。

网站排名易下拉教程_福田做网站_近期的重大新闻_上海官网seo

MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型

1.背景

2.核心问题：

3.方法：

3. 实验结果与优势

4. 技术贡献与意义

5.结论

推荐新闻

热搜词

网站排名易下拉教程_福田做网站_近期的重大新闻_上海官网seo

MMedPO： 用临床感知多模态偏好优化调整医学视觉语言模型

1.背景

2.核心问题：

3.方法：

3. 实验结果与优势

4. 技术贡献与意义

5.结论

推荐新闻

热搜词

MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型