计算机科学 > 机器学习
[提交于 2025年6月30日
]
标题: 进步的幻觉? 对视觉-语言模型测试时适应的批判性审视
标题: The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models
摘要: 测试时适应(TTA)方法在增强视觉-语言模型(VLMs)如CLIP在推理期间的性能方面引起了广泛关注,而无需额外的标记数据。 然而,当前的TTA研究通常存在重大限制,例如基准结果的重复、评估指标有限、实验设置不一致和分析不足。 这些问题阻碍了TTA方法之间的公平比较,并模糊了它们的实际优势和劣势。 为了解决这些挑战,我们引入了TTA-VLM,这是一个全面的基准,用于评估VLM上的TTA方法。 我们的基准在一个统一且可复现的框架内实现了8种周期性TTA和7种在线TTA方法,并在15个广泛使用的数据集上对其进行评估。 与之前仅专注于CLIP的研究不同,我们将评估扩展到SigLIP——一个使用Sigmoid损失训练的模型,并包括训练时微调方法如CoOp、MaPLe和TeCoA以评估通用性。 除了分类准确率外,TTA-VLM还结合了各种评估指标,包括鲁棒性、校准、分布外检测和稳定性,从而能够更全面地评估TTA方法。 通过广泛的实验,我们发现1)现有的TTA方法与之前的开创性工作相比产生的增益有限;2)当前的TTA方法与训练时微调方法表现出较差的协作性;3)准确率的提升往往以降低模型可信度为代价。 我们发布了TTA-VLM,以提供VLM上TTA方法的公平比较和全面评估,并希望它能鼓励社区开发更多可靠和通用的TTA策略。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.