计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: 通过强化学习解锁顿悟时刻:推进协作视觉理解和生成
标题: Unlocking Aha Moments via Reinforcement Learning: Advancing Collaborative Visual Comprehension and Generation
摘要: 多模态大型语言模型(MLLMs)的近期研究旨在统一视觉理解和生成能力。然而,这两种能力仍然很大程度上彼此独立,仿佛它们是同一模型中的两个分离功能。因此,视觉理解并未促进视觉生成,而LLMs的推理机制也尚未被完全整合以彻底革新图像生成。本文提出使视觉理解和生成实现协作共进化,推动图像生成进入一个迭代反思的过程。我们引入了一种两阶段训练方法:监督微调通过教导MLLM具备生成真实CoT的基础能力来实现视觉生成,而强化学习则通过探索-利用权衡激活其全部潜力。最终,我们在视觉生成中解锁了“顿悟时刻”,使MLLMs从文本到图像任务扩展到统一的图像生成。广泛的实验表明,我们的模型不仅在文本到图像生成和图像编辑方面表现出色,还作为具有增强视觉理解能力的优越图像语义评估器发挥作用。项目页面:https://janus-pro-r1.github.io。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.