计算机科学 > 计算机视觉与模式识别
[提交于 2025年9月4日
]
标题: TRUST-VL:一种用于通用多模态虚假信息检测的可解释新闻助手
标题: TRUST-VL: An Explainable News Assistant for General Multimodal Misinformation Detection
摘要: 多模态虚假信息,包括文本、视觉和跨模态的扭曲,正日益成为一种社会威胁,而生成式AI进一步加剧了这一威胁。 现有方法通常专注于一种类型的扭曲,并难以推广到未见过的场景。 在本工作中,我们观察到不同的扭曲类型具有共同的推理能力,同时还需要特定任务的技能。 我们假设在不同扭曲类型之间的联合训练有助于知识共享并增强模型的泛化能力。 为此,我们引入了TRUST-VL,这是一个统一且可解释的视觉-语言模型,用于一般的多模态虚假信息检测。 TRUST-VL结合了一个新颖的问答感知视觉增强模块,旨在提取特定任务的视觉特征。 为了支持训练,我们还构建了 TRUST-Instruct,一个包含198K个样本的大规模指令数据集,其中包含与人类事实核查工作流程对齐的结构化推理链。 在领域内和零样本基准上的广泛实验表明,TRUST-VL实现了最先进性能,同时提供了强大的泛化能力和可解释性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.