计算机科学 > 软件工程
[提交于 2025年7月22日
]
标题: 永不落空:用于改进LLM开发人员支持的自适应HyDE检索
标题: Never Come Up Empty: Adaptive HyDE Retrieval for Improving LLM Developer Support
摘要: 大型语言模型(LLMs)在帮助开发者解决代码相关问题方面显示出潜力;然而,LLMs存在生成不可靠答案的风险。 为了解决这个问题,提出了检索增强生成(RAG)来减少LLMs的不可靠性(即幻觉)。 然而,由于众多设计选择,设计有效的管道仍然具有挑战性。 在本文中,我们构建了一个包含超过300万条与Java和Python相关的Stack Overflow帖子(带有接受的答案)的检索语料库,并探索了各种RAG管道设计来回答开发者问题,评估它们在生成准确可靠回答方面的有效性。 更具体地说,我们(1)设计并评估了7种不同的RAG管道和63种管道变体,以回答历史上有相似匹配的问题,并(2)通过在检索过程中自动降低相似性阈值来处理没有任何接近先前匹配的新问题,从而增加找到部分相关上下文的机会,并提高对未见过情况的覆盖范围。 我们发现,将假设文档嵌入(HyDE)与完整答案上下文结合的RAG管道在检索和回答Stack Overflow问题的相似内容方面表现最佳。 最后,我们将我们最优的RAG管道应用于4个开源LLMs,并将其结果与它们的零样本性能进行比较。 我们的研究结果表明,使用我们最优RAG管道的RAG在不同模型上始终优于零样本基线,使LLM-as-a-judge的有用性、正确性和细节得分更高。 这些发现表明,我们的最优RAG管道能够稳健地提升各种开发者查询的回答质量,包括不同LLMs中之前见过和新出现的问题。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.