物理学 > 物理教育
[提交于 2025年8月20日
(v1)
,最后修订 2025年8月31日 (此版本, v2)]
标题: 大型语言模型与人类评分者在定性分析中的评分者间信度研究
标题: Investigation of the Inter-Rater Reliability between Large Language Models and Human Raters in Qualitative Analysis
摘要: 定性分析通常仅限于小数据集,因为它耗时。 此外,需要第二位人类评分者来确保结果的可靠性。 如果我们能证明人工智能工具与人类评分具有高一致性,它们就可以取代人类评分者。 我们研究了最先进的大型语言模型(LLMs)ChatGPT-4o 和 ChatGPT-4.5-preview 在对人工编码的音频转录本进行评分时的评分者间信度。 我们探索了提示和超参数以优化模型性能。 参与者是美国中西部一所大学的14个本科生小组,他们讨论了一个项目的解决问题策略。 我们提示一个大型语言模型来复制人工编码,并计算了Cohen's Kappa 作为评分者间信度。 在优化模型超参数和提示后,结果表明三个主题存在显著一致意见(${\kappa}>0.6$),一个主题存在中等一致意见。 我们的研究结果展示了GPT-4o 和 GPT-4.5 在物理教育中高效、可扩展的定性分析的潜力,并指出了它们在评分通用领域概念方面的局限性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.