Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.08992v1

帮助 | 高级搜索

计算机科学 > 软件工程

arXiv:2507.08992v1 (cs)
[提交于 2025年7月11日 ]

标题: 基于小模型和大语言模型的语义源代码分割

标题: Semantic Source Code Segmentation using Small and Large Language Models

Authors:Abdelhalim Dahou, Ansgar Scherp, Sebastian Kurten, Brigitte Mathiak, Madhu Chauhan
摘要: 源代码分割,将代码划分为功能一致的段落,对于软件开发中的知识检索和维护至关重要。 虽然能够实现对大型代码库的高效导航和理解,但随着存储库的增长,手动和语法分析方法变得不切实际,尤其是对于像R这样的低资源语言及其研究领域(例如社会科学、心理学)。本文介绍了一种用于研究R代码分割的自动化、领域特定的方法,使用了大型和小型语言模型(LLMs/SLMs)。 它提出了两种新方法和一个由人类标注的数据集,StatCodeSeg。 我们探索了两种不同的方法:基于上下文的逐行分析和基于范围的段确定。 我们对LLMs和微调过的SLMs进行了实验。 为了支持我们方法的通用性,我们还对计算机科学领域的Python代码进行了实验。 我们的结果表明,基于上下文的逐行分析优于基于范围的分割。 使用较小的语言模型,如CodeBERT和CodeT5+的仅编码器版本,比它们的LLM counterparts 更好。 最值得注意的是,这两种表现最好的模型在预训练期间没有见过R代码,而是仅在4,130行手动标注的代码上进行了微调。
摘要: Source code segmentation, dividing code into functionally coherent segments, is crucial for knowledge retrieval and maintenance in software development. While enabling efficient navigation and comprehension of large codebases, manual and syntactic analysis approaches have become impractical as repositories grow, especially for low-resource languages like R and their research domains (e.g., social sciences, psychology).This paper introduces an automated, domain-specific approach for research R code segmentation using Large and Small Language Models (LLMs/SLMs). It presents two novel approaches and a human-annotated dataset, StatCodeSeg. We explore two distinct approaches: line-by-line analysis with context and range-based segment determination. We experiment with LLMs and fine-tuned SLMs. To support the generalizability of our approaches, we also include experiments on Python code from the computer science domain.Our results show that context-based line-by-line analysis is superior over range-based segmentation.Using smaller language models like CodeBERT and an encoder-only version of CodeT5+ are better than their LLM counterparts. Most notably, these two best-performing models did not see R code during pre-training versus the LLMs but were only fine-tuned on 4,130 lines of manually annotated code.
评论: 18页,4图
主题: 软件工程 (cs.SE) ; 计算与语言 (cs.CL); 编程语言 (cs.PL)
引用方式: arXiv:2507.08992 [cs.SE]
  (或者 arXiv:2507.08992v1 [cs.SE] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.08992
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Abdelhalim Hafedh Dahou [查看电子邮件]
[v1] 星期五, 2025 年 7 月 11 日 19:49:59 UTC (804 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.SE
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.CL
cs.PL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号