计算机科学 > 软件工程
[提交于 2025年10月19日
]
标题: 当多示例提示失败时:对LLM代码翻译的实证研究
标题: When Many-Shot Prompting Fails: An Empirical Study of LLM Code Translation
摘要: 大型语言模型(LLMs)具有广阔的上下文窗口,为在上下文中学习(ICL)提供了新的途径,在这种情况下,提供许多示例(“多射击”提示)通常被认为可以提高性能。 我们针对代码翻译这一复杂任务检验了这一假设。 通过一项涉及超过90,000次翻译的大规模实证研究,我们系统地评估了从零射击到最多625个示例的多射击配置中上下文示例扩展的影响,提示跨度从大约100,000到800,000个标记。 我们的研究结果揭示了一个“多射击悖论”:虽然静态相似性指标可能随着示例数量的增加而略有改善,但功能正确性在少量射击提示(5-25个示例)时达到峰值。 提供大量示例往往会降低这一关键的功能性能。 本研究表明,对于代码翻译,少量精心选择的示例的质量胜过数量,这挑战了“更多更好”在ICL中的普遍有效性,并强调了最佳提示策略的任务依赖性。 我们的结果对在软件工程中有效利用LLMs具有重要意义。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.