计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
]
标题: FORLA:基于槽注意力的面向对象联邦表示学习
标题: FORLA:Federated Object-centric Representation Learning with Slot Attention
摘要: 在跨异构无标注数据集的高效视觉表征学习仍然是联邦学习中的一个核心挑战。 有效的联邦表征需要特征在客户端之间具有联合信息性,同时在没有监督的情况下解耦领域特定因素。 我们引入了 FORLA,这是一种新颖的框架,用于使用无监督槽注意力在客户端之间进行联邦面向对象的表征学习和特征适应。 我们的方法的核心是一个共享的特征适配器,它通过客户端之间的协作训练来适应基础模型的特征,并且是一个共享的槽注意力模块,用于学习重建被适配的特征。 为了优化这个适配器,我们设计了一个两分支的学生-教师架构。 在每个客户端中,一个学生解码器学习从基础模型重建完整的特征,而一个教师解码器则重建它们的低维适配对应物。 共享的槽注意力模块通过对齐客户端的对象级表示来实现跨域学习。 在多个真实世界的数据集上的实验表明,我们的框架不仅在对象发现方面优于集中式基线,而且学习了一个紧凑且通用的表示,可以在领域间良好泛化。 这项工作强调了联邦槽注意力作为一种有效工具,用于从具有分布式概念的跨域数据中进行可扩展的无监督视觉表征学习。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.