计算机科学 > 计算机视觉与模式识别
[提交于 2025年1月6日
]
标题: 人类注视增强对象中心表示学习
标题: Human Gaze Boosts Object-Centered Representation Learning
摘要: 最近的自监督学习(SSL)模型在人类类似的第一视角视觉输入上训练,在图像识别任务中的表现明显低于人类。 这些模型在从头戴式相机收集的原始、统一的视觉输入上进行训练。 这与人类不同,因为视网膜和视觉皮层的解剖结构相对放大了中心视觉信息,即人类注视位置周围的区域。 人类的这种选择性放大可能有助于形成以物体为中心的视觉表征。 在此,我们研究专注于中心视觉信息是否有助于第一视角视觉物体学习。 我们使用大规模的Ego4D数据集模拟5个月的第一视角视觉体验,并使用人类注视预测模型生成注视位置。 为了考虑人类中心视觉的重要性,我们裁剪注视位置周围的视觉区域。 最后,我们在这些修改后的输入上训练一个基于时间的SSL模型。 我们的实验表明,专注于中心视觉可以产生更好的以物体为中心的表征。 我们的分析显示,SSL模型利用注视运动的时间动态来构建更强的视觉表征。 总体而言,我们的工作标志着向生物启发的视觉表征学习迈出了重要一步。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.