计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月8日
]
标题: MMFformer:用于抑郁检测的多模态融合Transformer网络
标题: MMFformer: Multimodal Fusion Transformer Network for Depression Detection
摘要: 抑郁症是一种严重影响个体幸福感和生活质量的严重心理健康疾病,因此早期检测对于适当的护理和治疗至关重要。 检测抑郁症通常很困难,因为主要基于临床访谈中的主观评估。 因此,借助社交媒体内容的抑郁症早期诊断已成为一个突出的研究领域。 用户生成信息的广泛性和多样性带来了重大挑战,限制了相关时间信息的准确提取以及多模态数据的有效融合。 本文介绍了MMFformer,这是一种多模态抑郁症检测网络,旨在从多模态社交媒体信息中检索抑郁的时空高层次模式。 具有残差连接的Transformer网络从视频中捕捉空间特征,而Transformer编码器被用于设计音频中的重要时间动态。 此外,融合架构通过晚期和中期融合策略融合提取的特征,以找出它们之间的最相关跨模态相关性。 最后,所提出的网络在两个大规模抑郁症检测数据集上进行了评估,结果明确表明它优于现有的最先进方法,在D-Vlog数据集上的F1分数提高了13.92%,在LMVD数据集上提高了7.74%。 代码可在https://github.com/rezwanh001/Large-Scale-Multimodal-Depression-Detection公开获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.