Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.17690

帮助 | 高级搜索

计算机科学 > 软件工程

arXiv:2507.17690 (cs)
[提交于 2025年7月23日 ]

标题: 上下文代码检索用于提交消息生成:一项初步研究

标题: Contextual Code Retrieval for Commit Message Generation: A Preliminary Study

Authors:Bo Xiong, Linghao Zhang, Chong Wang, Peng Liang
摘要: 提交信息描述了提交中的主要代码更改,并在软件维护中起着关键作用。 现有的提交信息生成(CMG)方法通常将其视为一种直接映射,输入代码差异并输出一个简短的描述性句子作为输出。 然而,我们认为仅依赖代码差异是不够的,因为原始代码差异无法捕捉生成高质量和信息丰富的提交信息所需的完整上下文。 在本文中,我们提出了一种基于上下文代码检索的方法,称为C3Gen,通过从仓库中检索与提交相关的代码片段并将其纳入模型输入,以在仓库范围内提供更丰富的上下文信息,从而增强CMG。 在实验中,我们使用四个客观指标和三个主观指标评估了C3Gen在各种模型上的有效性。 同时,我们设计并进行了一项人工评估,以研究C3Gen生成的提交信息如何被人类开发者所感知。 结果表明,通过将上下文代码纳入输入,C3Gen使模型能够有效利用额外信息,生成更具全面性和信息量的提交信息,在实际开发场景中具有更大的实用价值。 进一步的分析强调了对基于相似性的度量标准可靠性的担忧,并为CMG提供了实证见解。
摘要: A commit message describes the main code changes in a commit and plays a crucial role in software maintenance. Existing commit message generation (CMG) approaches typically frame it as a direct mapping which inputs a code diff and produces a brief descriptive sentence as output. However, we argue that relying solely on the code diff is insufficient, as raw code diff fails to capture the full context needed for generating high-quality and informative commit messages. In this paper, we propose a contextual code retrieval-based method called C3Gen to enhance CMG by retrieving commit-relevant code snippets from the repository and incorporating them into the model input to provide richer contextual information at the repository scope. In the experiments, we evaluated the effectiveness of C3Gen across various models using four objective and three subjective metrics. Meanwhile, we design and conduct a human evaluation to investigate how C3Gen-generated commit messages are perceived by human developers. The results show that by incorporating contextual code into the input, C3Gen enables models to effectively leverage additional information to generate more comprehensive and informative commit messages with greater practical value in real-world development scenarios. Further analysis underscores concerns about the reliability of similaritybased metrics and provides empirical insights for CMG.
评论: 第19届ACM/IEEE国际经验软件工程与测量研讨会(ESEM)
主题: 软件工程 (cs.SE)
引用方式: arXiv:2507.17690 [cs.SE]
  (或者 arXiv:2507.17690v1 [cs.SE] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.17690
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Peng Liang [查看电子邮件]
[v1] 星期三, 2025 年 7 月 23 日 16:54:57 UTC (301 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.SE
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号