计算机科学 > 计算与语言
[提交于 2025年7月17日
]
标题: 视觉与语言训练有助于部署分类学知识,但不会根本改变它
标题: Vision-and-Language Training Helps Deploy Taxonomic Knowledge but Does Not Fundamentally Alter It
摘要: 视觉和语言(VL)训练是否以有意义的方式改变了语言模型的语言表示? 文献中的大多数结果表明,在行为和表征方面都存在不一致或微小的差异。 在本工作中,我们从一个假设出发,即VL训练可能产生显著影响的领域是词汇-概念知识,特别是其分类组织。 通过比较纯文本LM和其VL训练后的对应模型的最小对,我们首先表明,在需要对问题中提到的概念进行分类理解的纯文本问答任务中,VL模型通常比纯文本模型表现更好。 通过一系列有针对性的行为和表征分析,我们表明LM和VLM在分类知识本身方面没有显著差异,但在如何表示包含分类关系概念的问题与非分类关系概念的问题方面存在差异。 这表明,通过额外的VL训练,分类知识本身并没有发生显著变化,但VL训练确实提高了这种知识在特定任务上下文中的应用能力,即使任务的呈现方式完全是语言性的。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.