计算机科学 > 机器学习
[提交于 2025年10月23日
]
标题: 大规模实用代码RAG:在计算预算下的任务感知检索设计选择
标题: Practical Code RAG at Scale: Task-Aware Retrieval Design Choices under Compute Budgets
摘要: 我们研究在现实计算预算下的代码导向生成任务的检索设计。 使用来自Long Code Arena的两个互补任务——代码补全和错误定位——我们系统地比较了在不同上下文窗口大小下各种检索配置,从三个维度进行比较:(i) 分块策略,(ii) 相似性评分,以及(iii) 分割粒度。 (1) 对于PL-PL,基于词级别的分割的稀疏BM25是最有效且实用的,显著优于密集替代方案,同时快一个数量级。 (2) 对于NL-PL,专有的密集编码器(Voyager-3系列)始终优于稀疏检索器,但需要100倍更大的延迟。 (3) 最优分块大小与可用上下文成比例:在小预算下,32-64行的分块效果最好,而在16000个标记时整个文件检索变得具有竞争力。 (4) 简单的基于行的分块在所有预算下都能与语法感知的分割相匹配。 (5) 不同配置之间的检索延迟最多相差200倍;基于BPE的分割过于缓慢,而BM25 + 词分割提供了最佳的质量-延迟权衡。 因此,我们根据任务需求、模型约束和计算效率,提供了基于证据的有效代码导向RAG系统的实施建议。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.