计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月1日
(v1)
,最后修订 2025年7月2日 (此版本, v2)]
标题: 视觉上下文学习在组合医学任务中是否可行?
标题: Is Visual in-Context Learning for Compositional Medical Tasks within Reach?
摘要: 在本文中,我们探讨了视觉上下文学习的潜力,以使单个模型能够处理多个任务,并在测试时适应新任务而无需重新训练。 与之前的方法不同,我们的重点是训练上下文学习者以适应任务序列,而不是单个任务。 我们的目标是使用单个模型解决涉及多个中间步骤的复杂任务,从而使用户能够在测试时灵活定义完整的视觉流程。 为此,我们首先研究了视觉上下文学习架构的特性和限制,特别关注代码本的作用。 然后,我们引入了一种使用合成组合任务生成引擎来训练上下文学习者的新方法。 该引擎从任意分割数据集中引导任务序列,使得可以对组合任务进行视觉上下文学习者的训练。 此外,我们研究了不同的基于掩码的训练目标,以深入了解如何更好地训练模型以解决复杂、组合性任务。 我们的探索不仅为多模态医学任务序列提供了重要的见解,还突出了需要解决的挑战。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.