计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月7日
]
标题: 超越简单编辑:基于复杂指令的X-Planner图像编辑
标题: Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing
摘要: 基于扩散的图像编辑方法在文本引导任务上取得了显著进展,但通常难以理解复杂的、间接的指令。 此外,当前模型经常面临身份保留效果差、意外编辑或严重依赖手动掩码的问题。 为了解决这些挑战,我们引入了X-Planner,这是一个基于多模态大语言模型(MLLM)的规划系统,能够有效将用户意图与编辑模型能力相衔接。 X-Planner采用思维链推理,系统地将复杂指令分解为更简单、清晰的子指令。 对于每个子指令,X-Planner会自动生成精确的编辑类型和分割掩码,消除人工干预,确保局部化且保留身份的编辑。 此外,我们提出了一种新颖的自动化流程,用于生成大规模数据以训练X-Planner,在现有基准和我们新引入的复杂编辑基准上均取得了最先进的结果。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.