计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: Zoom-Refine:通过局部缩放和自 refinement 提升高分辨率多模态理解
标题: Zoom-Refine: Boosting High-Resolution Multimodal Understanding via Localized Zoom and Self-Refinement
摘要: 多模态大型语言模型(MLLM)通常难以准确解释高分辨率图像,在这些图像中,细微的细节对于复杂的视觉理解至关重要。 我们引入了Zoom-Refine,这是一种新颖的无需训练的方法,旨在提升MLLM的能力以解决此问题。 Zoom-Refine通过\textit{局部缩放}和\textit{自我精炼}的协同过程运作。 在\textit{局部放大}步骤中,Zoom-Refine利用MLLM对输入查询提供初步响应,并通过预测边界框坐标来识别与任务最相关的图像区域。 在\textit{自精化}步骤中,Zoom-Refine将高分辨率裁剪部分(由\textit{局部缩放}确定)的细粒度细节与其初始推理相结合,重新评估并优化其初步响应。 我们的方法利用了MLLM在空间定位、上下文推理和比较分析方面的固有能力,而无需额外的训练或外部专家。 全面的实验表明,Zoom-Refine在两个具有挑战性的高分辨率多模态基准数据集上表现出色。 代码可在\href{https://github.com/xavier-yu114/Zoom-Refine}{\color{magenta}github.com/xavier-yu114/Zoom-Refine}获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.