计算机科学 > 计算与语言
[提交于 2025年1月4日
]
标题: 构造响应评分的有效性论证使用生成式人工智能应用
标题: Validity Arguments For Constructed Response Scoring Using Generative Artificial Intelligence Applications
摘要: 大型语言模型和生成式人工智能(AI)能力的迅速发展,使得它们在高风险测试环境中的广泛应用变得更加可能。 在构造性回答评分中使用生成式AI特别有吸引力,因为它减少了传统AI评分中手工设计特征所需的工作量,甚至可能超越这些方法。 本文的目的是突出基于特征的AI和生成式AI在构造性回答评分系统中的应用差异,并提出一套最佳实践,以收集有效性证据,支持使用和解释基于生成式AI评分系统的构造性回答分数。 我们比较了使用人工评分、基于特征的自然语言处理AI评分引擎和生成式AI的评分系统所需的有效性证据。 由于生成式AI缺乏透明度以及其他独特的担忧,如一致性问题,生成式AI情境下所需的有效性证据比基于特征的NLP评分情境下更为广泛。 标准化测试中的构造性回答分数数据展示了不同类型评分系统有效性证据的收集情况,并突出了在为这些分数构建有效性论点时的诸多复杂性和考虑因素。 此外,我们讨论了AI分数的评估可能需要考虑一种结合多个AI分数(来自不同来源)的贡献性评分方法,在没有人工评分的情况下,这种方法将更全面地覆盖构念。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.