计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月30日
]
标题: 面向目标的单域泛化
标题: Target-Oriented Single Domain Generalization
摘要: 深度模型在单一源域上训练时,在分布变化下常常会灾难性失败,这是单域泛化(SDG)中的一个关键挑战。 尽管现有方法专注于增强源数据或学习不变特征,但它们忽视了一个易于获取的资源:目标部署环境的文本描述。 我们提出了面向目标的单域泛化(TO-SDG),这是一种新的问题设置,利用目标域的文本描述来引导模型泛化,而无需任何目标数据。 为了解决TO-SDG,我们引入了频谱目标对齐(STAR),这是一个轻量级模块,通过利用视觉语言模型(VLM)如CLIP,将目标语义注入源特征中。 STAR使用从目标描述的文本嵌入中导出的目标锚定子空间,将图像特征重新定位到部署域,然后利用频谱投影保留与目标线索对齐的方向,同时丢弃源特定的噪声。 此外,我们使用视觉语言蒸馏来将主干特征与VLM的语义几何对齐。 STAR进一步采用特征空间Mixup,以确保源和目标导向表示之间的平滑过渡。 在各种图像分类和目标检测基准上的实验表明了STAR的优势。 这项工作证明了最小的文本元数据,这是一种实用且常被忽视的资源,在严重的数据约束下显著增强了泛化能力,为在具有未见数据的目标环境中部署稳健模型开辟了新途径。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.