计算机科学 > 人工智能
[提交于 2023年5月31日
]
标题: 通过CodeWars的Katas评估GPT的编程能力
标题: Evaluating GPT's Programming Capability through CodeWars' Katas
摘要: 在人工智能(AI)这一快速发展的领域中,了解面向编程的模型的能力和局限性至关重要。 本文对生成式预训练变换器(GPT)模型,特别是GPT-3.5和GPT-4,在不同难度级别的编码问题上的编程能力进行了新颖的评估,这些问题来源于Codewars。 实验结果揭示了在3kyu级别存在一个明显的分界线,超出该级别的问题,这些GPT模型难以提供解决方案。 这些发现促使提出了一种用于编码问题复杂度的衡量方法,该方法结合了问题难度和解决问题所需的时间。 研究强调了AI模型需要具备验证能力和创造性思维能力,以更好地模仿人类的问题解决技术。 未来的工作旨在完善这种提出的复杂度衡量方法,增强AI模型的这些建议能力,并开发一种客观的编程问题难度衡量方法。 这项研究的结果为提高AI编程能力并推进AI问题解决能力的前沿提供了无价的见解。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.