计算机科学 > 多媒体
[提交于 2025年6月4日
(v1)
,最后修订 2025年8月11日 (此版本, v2)]
标题: 我们离用基础模型生成缺失模态还有多远?
标题: How Far Are We from Generating Missing Modalities with Foundation Models?
摘要: 多模态基础模型在各种任务中展示了令人印象深刻的能力。 然而,它们作为缺失模态重建的即插即用解决方案的潜力仍未被充分探索。 为了弥补这一差距,我们确定并形式化了三种可能的缺失模态重建范式,并对这些范式进行了全面评估,从重建准确性和对下游任务的适应性方面涵盖了42种模型变体。 我们的分析表明,当前的基础模型在两个关键方面往往不足:(i) 从可用模态中提取细粒度语义,以及 (ii) 对生成模态的鲁棒验证。 这些限制导致了次优甚至有时不一致的生成。 为了解决这些挑战,我们提出了一种针对缺失模态重建的代理框架。 该框架根据输入上下文动态制定模态感知的挖掘策略,促进提取更丰富和更具区分性的语义特征。 此外,我们引入了一种自我精炼机制,通过内部反馈迭代地验证和提升生成模态的质量。 实验结果表明,与基线方法相比,我们的方法在缺失图像重建中的FID降低了至少14%,在缺失文本重建中的MER降低了至少10%。 代码已发布在:https://github.com/Guanzhou-Ke/AFM2.
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.