计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: VideoCap-R1:通过结构化思维增强用于视频字幕的MLLMs
标题: VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking
摘要: 尽管强化学习的最新进展显著提升了大型语言模型(LLMs)的推理能力,但在视频字幕的多模态LLMs中,这些技术仍未得到充分探索。 本文首次系统性地研究了基于GRPO的RL微调对视频多模态LLMs的影响,旨在增强视频多模态LLMs描述视频中动作的能力。 具体而言,我们开发了VideoCap-R1,它被提示首先执行结构化思考,分析视频主体及其属性和动作,然后生成完整的字幕,支持两种专门的奖励机制:一种是无需LLM的思考评分器评估结构化思考的质量,另一种是辅助LLM的字幕评分器评估输出质量。 RL训练框架有效地建立了结构化推理与全面描述生成之间的联系,使模型能够生成更准确的动作描述。 我们的实验表明,VideoCap-R1在多个视频字幕基准测试(DREAM1K:+4.4事件F1,VDC:+4.2准确率,CAREBENCH:+3.1动作F1,+6.9对象F1)上显著优于Qwen2VL-7B基线模型(使用有限样本1.5k),并且始终优于SFT训练的对应模型,证实了GRPO在提升多模态LLMs字幕能力方面的优越性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.