计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月1日
]
标题: HSCR:用于对齐医学视觉语言模型的分层自对比奖励
标题: HSCR: Hierarchical Self-Contrastive Rewarding for Aligning Medical Vision Language Models
摘要: 医学视觉语言模型(Med-VLMs)在各种任务中取得了成功,但大多数现有方法忽略了可能导致临床环境中不可信响应的模态错配问题。 本文提出了一种名为分层自对比奖励(HSCR)的新方法,解决了Med-VLM对齐中的两个关键挑战:1)以成本效益的方式生成高质量的偏好数据;2)捕获细微且上下文感知的偏好以提高对齐效果。 HSCR首先利用Med-VLMs内在的能力,以更高的采样概率生成不受欢迎的响应。 通过分析视觉标记丢弃后的输出对数偏移量,我们识别出导致错配的模态耦合标记,并推导出一个隐式的对齐奖励函数。 该函数在解码过程中引导幻觉标记的替换,生成高质量的不受欢迎的数据。 此外,HSCR引入了多级偏好优化策略,通过结合细微的隐式偏好和利用不受欢迎数据中的相对质量来捕捉微妙的对齐线索,从而超越传统的相邻级别优化策略,实现更精确且上下文感知的优化。 在多个医疗任务上的广泛实验,包括Med-VQA、医疗图像描述生成和指令遵循,表明HSCR不仅提升了零样本性能,而且仅用2,000个训练条目就显著提高了模态对齐和可信度。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.