计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月26日
]
标题: FaSTA$^*$:具有子程序挖掘的快速-慢速加工路径代理,用于高效的多轮图像编辑
标题: FaSTA$^*$: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing
摘要: 我们开发了一个成本高效的神经符号代理,以解决具有挑战性的多轮图像编辑任务,例如“在图像中检测长椅并将其重新着色为粉色。同时,移除猫以获得更清晰的视角,并将墙壁重新着色为黄色。” 它结合了大型语言模型(LLMs)快速的高层子任务规划与慢速、精确的工具使用和每个子任务的局部 A$^*$搜索,以找到一个成本高效的工具路径——一系列对AI工具的调用。 为了节省类似子任务上的 A$^*$成本,我们通过LLMs对之前成功的工具路径进行归纳推理,持续提取/优化常用的子例程,并将其作为新工具用于未来任务的自适应快慢规划中,其中首先探索高层子例程,仅在它们失败时才激活低层 A$^*$搜索。 可重复使用的符号子例程显著节省了在应用于相似图像的相同类型子任务上的探索成本,产生了一个类似人类的快慢工具路径代理“FaSTA$^*$”:首先由LLMs尝试快速子任务规划,并按子任务选择基于规则的子例程,这预计可以覆盖大多数任务,而慢速 A$^*$搜索仅在遇到新颖和具有挑战性的子任务时被触发。 通过与最近的图像编辑方法进行比较,我们证明 FaSTA$^*$在计算效率方面显著更高,同时在成功率方面仍能与最先进基线保持竞争力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.