计算机科学 > 软件工程
[提交于 2025年2月21日
]
标题: 大型语言模型在编写合金公式中的有效性
标题: On the Effectiveness of Large Language Models in Writing Alloy Formulas
摘要: 声明性规范在开发安全和可靠的软件系统中起着至关重要的作用。然而,正确编写规范仍然是一个特别具有挑战性的问题。本文介绍了一个控制实验,研究使用大型语言模型(LLMs)在著名的Alloy语言中编写声明性公式。我们对LLMs的使用有三个方面的应用。第一,我们利用LLMs从给定的自然语言描述(英文)中编写完整的Alloy公式。第二,我们利用LLMs根据给定的Alloy公式创建替代但等效的Alloy公式。第三,我们利用LLMs完成Alloy公式的草图,并通过合成Alloy表达式和运算符来填充草图中的空白,使得完成的公式准确地表示所需的属性(这些属性以自然语言给出)。我们使用11个广泛研究的受试规范进行实验评估,并采用两种流行的LLMs,即ChatGPT和DeepSeek。实验结果表明,LLMs在从以自然语言或Alloy形式给出的输入属性中合成完整的Alloy公式方面表现良好,并能够枚举多个唯一的解决方案。此外,LLMs在根据所需属性的自然语言描述完成给定的Alloy公式草图方面也取得了成功(无需测试用例)。我们认为,LLMs在我们编写规范的能力方面提供了一个非常令人兴奋的进展,并可以帮助使规范在软件开发中发挥关键作用,并增强我们构建健壮软件的能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.