计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月21日
]
标题: 通过正则化Gromov-Wasserstein最优传输的程序学习
标题: Procedure Learning via Regularized Gromov-Wasserstein Optimal Transport
摘要: 我们研究自监督过程学习的问题,该问题从一组未标记的过程视频中发现关键步骤并建立它们的顺序。 以往的过程学习方法通常在确定关键步骤及其顺序之前学习视频之间的帧到帧对应关系。 然而,它们的性能常常受到顺序变化、背景/冗余帧和重复动作的影响。 为了克服这些挑战,我们提出了一种自监督过程学习框架,该框架利用融合的Gromov-Wasserstein最优传输公式,并结合结构先验来计算视频之间的帧到帧映射。 然而,仅优化上述时间对齐项可能导致退化解,其中所有帧都被映射到嵌入空间中的一个小簇,因此每个视频仅与一个关键步骤相关。 为了解决这一限制,我们进一步集成了一个对比正则化项,该项将不同的帧映射到嵌入空间中的不同点,避免陷入平凡解。 最后,我们在大规模的第一视角(即EgoProceL)和第三人称(即ProceL和CrossTask)基准上进行了广泛的实验,以证明我们的方法相对于以前的方法(包括依赖于传统Kantorovich最优传输公式和最优性先验的OPEL)具有优越的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.