Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.03530

帮助 | 高级搜索

计算机科学 > 多媒体

arXiv:2506.03530 (cs)
[提交于 2025年6月4日 (v1) ,最后修订 2025年8月11日 (此版本, v2)]

标题: 我们离用基础模型生成缺失模态还有多远?

标题: How Far Are We from Generating Missing Modalities with Foundation Models?

Authors:Guanzhou Ke, Bo Wang, Guoqing Chao, Weiming Hu, Shengfeng He
摘要: 多模态基础模型在各种任务中展示了令人印象深刻的能力。 然而,它们作为缺失模态重建的即插即用解决方案的潜力仍未被充分探索。 为了弥补这一差距,我们确定并形式化了三种可能的缺失模态重建范式,并对这些范式进行了全面评估,从重建准确性和对下游任务的适应性方面涵盖了42种模型变体。 我们的分析表明,当前的基础模型在两个关键方面往往不足:(i) 从可用模态中提取细粒度语义,以及 (ii) 对生成模态的鲁棒验证。 这些限制导致了次优甚至有时不一致的生成。 为了解决这些挑战,我们提出了一种针对缺失模态重建的代理框架。 该框架根据输入上下文动态制定模态感知的挖掘策略,促进提取更丰富和更具区分性的语义特征。 此外,我们引入了一种自我精炼机制,通过内部反馈迭代地验证和提升生成模态的质量。 实验结果表明,与基线方法相比,我们的方法在缺失图像重建中的FID降低了至少14%,在缺失文本重建中的MER降低了至少10%。 代码已发布在:https://github.com/Guanzhou-Ke/AFM2.
摘要: Multimodal foundation models have demonstrated impressive capabilities across diverse tasks. However, their potential as plug-and-play solutions for missing modality reconstruction remains underexplored. To bridge this gap, we identify and formalize three potential paradigms for missing modality reconstruction, and perform a comprehensive evaluation across these paradigms, covering 42 model variants in terms of reconstruction accuracy and adaptability to downstream tasks. Our analysis reveals that current foundation models often fall short in two critical aspects: (i) fine-grained semantic extraction from the available modalities, and (ii) robust validation of generated modalities. These limitations lead to suboptimal and, at times, misaligned generations. To address these challenges, we propose an agentic framework tailored for missing modality reconstruction. This framework dynamically formulates modality-aware mining strategies based on the input context, facilitating the extraction of richer and more discriminative semantic features. In addition, we introduce a self-refinement mechanism, which iteratively verifies and enhances the quality of generated modalities through internal feedback. Experimental results show that our method reduces FID for missing image reconstruction by at least 14\% and MER for missing text reconstruction by at least 10\% compared to baselines. Code are released at: https://github.com/Guanzhou-Ke/AFM2.
主题: 多媒体 (cs.MM) ; 计算与语言 (cs.CL); 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.03530 [cs.MM]
  (或者 arXiv:2506.03530v2 [cs.MM] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.03530
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Guanzhou Ke [查看电子邮件]
[v1] 星期三, 2025 年 6 月 4 日 03:22:44 UTC (1,412 KB)
[v2] 星期一, 2025 年 8 月 11 日 06:25:52 UTC (1,624 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.MM
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.CL
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号