Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.01480

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.01480 (cs)
[提交于 2025年6月2日 ]

标题: 通过强化学习解锁顿悟时刻:推进协作视觉理解和生成

标题: Unlocking Aha Moments via Reinforcement Learning: Advancing Collaborative Visual Comprehension and Generation

Authors:Kaihang Pan, Yang Wu, Wendong Bu, Kai Shen, Juncheng Li, Yingting Wang, Yunfei Li, Siliang Tang, Jun Xiao, Fei Wu, Hang Zhao, Yueting Zhuang
摘要: 多模态大型语言模型(MLLMs)的近期研究旨在统一视觉理解和生成能力。然而,这两种能力仍然很大程度上彼此独立,仿佛它们是同一模型中的两个分离功能。因此,视觉理解并未促进视觉生成,而LLMs的推理机制也尚未被完全整合以彻底革新图像生成。本文提出使视觉理解和生成实现协作共进化,推动图像生成进入一个迭代反思的过程。我们引入了一种两阶段训练方法:监督微调通过教导MLLM具备生成真实CoT的基础能力来实现视觉生成,而强化学习则通过探索-利用权衡激活其全部潜力。最终,我们在视觉生成中解锁了“顿悟时刻”,使MLLMs从文本到图像任务扩展到统一的图像生成。广泛的实验表明,我们的模型不仅在文本到图像生成和图像编辑方面表现出色,还作为具有增强视觉理解能力的优越图像语义评估器发挥作用。项目页面:https://janus-pro-r1.github.io。
摘要: Recent endeavors in Multimodal Large Language Models (MLLMs) aim to unify visual comprehension and generation. However, these two capabilities remain largely independent, as if they are two separate functions encapsulated within the same model. Consequently, visual comprehension does not enhance visual generation, and the reasoning mechanisms of LLMs have not been fully integrated to revolutionize image generation. In this paper, we propose to enable the collaborative co-evolution of visual comprehension and generation, advancing image generation into an iterative introspective process. We introduce a two-stage training approach: supervised fine-tuning teaches the MLLM with the foundational ability to generate genuine CoT for visual generation, while reinforcement learning activates its full potential via an exploration-exploitation trade-off. Ultimately, we unlock the Aha moment in visual generation, advancing MLLMs from text-to-image tasks to unified image generation. Extensive experiments demonstrate that our model not only excels in text-to-image generation and image editing, but also functions as a superior image semantic evaluator with enhanced visual comprehension capabilities. Project Page: https://janus-pro-r1.github.io.
评论: 21页,7幅图
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.01480 [cs.CV]
  (或者 arXiv:2506.01480v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.01480
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Kaihang Pan [查看电子邮件]
[v1] 星期一, 2025 年 6 月 2 日 09:39:28 UTC (39,895 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号