计算机科学 > 机器学习
[提交于 2025年9月2日
(v1)
,最后修订 2025年9月3日 (此版本, v2)]
标题: 平衡多模态学习:单向动态交互视角
标题: Balanced Multimodal Learning: An Unidirectional Dynamic Interaction Perspective
摘要: 多模态学习通常利用多模态联合损失来整合不同模态并提升模型性能。 然而,这种联合学习策略可能导致模态不平衡,其中强模态会压倒较弱的模态,并限制从每个模态中单独信息以及模态间交互信息的利用。 现有的策略如动态损失加权、辅助目标和梯度调制基于联合损失来缓解模态不平衡。 这些方法本质上是被动的,在不平衡发生后检测并纠正,而未改变联合损失的竞争本质。 这一局限性促使我们探索一种不依赖于联合损失的新多模态不平衡学习策略,从而实现模态之间更有效的交互以及对单个模态及其交互信息的更好利用。 在本文中,我们引入了 单向动态交互(UDI),一种新的策略,该策略摒弃了传统的联合损失,转而采用主动的顺序训练方案。 UDI首先将锚定模态训练到收敛,然后通过无监督损失使用其学习到的表示来引导其他模态。 此外,模态交互的动态调整使模型能够适应当前任务,确保每个模态都能最优地贡献。 通过解耦模态优化并实现定向的信息流,UDI防止任何单一模态的主导,并促进有效的跨模态特征学习。 我们的实验结果表明,UDI在处理模态不平衡方面优于现有方法,从而在多模态学习任务中实现了性能提升。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.