计算机科学 > 计算机视觉与模式识别
[提交于 2025年5月31日
]
标题: CReFT-CAD:通过强化微调提升CAD的正投影推理能力
标题: CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning
摘要: 计算机辅助设计(CAD)在工业制造中起着至关重要的作用。 正交投影推理贯穿整个CAD工作流程,涵盖设计、制造和仿真。 然而,现有的深度学习方法通常采用标准的三维重建管道作为替代方案,这往往会导致尺寸不精确,并限制了CAD工作流程所需的参数可编辑性。 最近,一些研究人员采用视觉-语言模型(VLM),特别是监督微调(SFT),来解决与CAD相关的问题。 虽然SFT显示出潜力,但常常退化为模式记忆,在复杂的推理任务上表现不佳。 为了解决这些差距,我们提出了CReFT-CAD,这是一种两阶段的微调范式,首先采用以难度感知奖励为驱动的课程强化学习阶段,逐步建立推理能力,然后应用监督后微调来提高指令遵循和语义提取能力。 此外,我们发布了TriView2CAD,这是首个大规模开源基准数据集,用于正交投影推理,包含200,000个合成和3,000个真实世界的正交投影,具有精确的尺寸标注和六种互操作的数据模态。 我们在正交投影推理上评估了领先的VLM,并证明CReFT-CAD在实际场景中显著提高了推理准确性和分布外泛化能力,为推进CAD推理研究提供了有价值的见解。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.