计算机科学 > 计算与语言
[提交于 2024年12月30日
(v1)
,最后修订 2025年4月3日 (此版本, v2)]
标题: 衡量大型语言模型标注新闻来源的能力
标题: Measuring Large Language Models Capacity to Annotate Journalistic Sourcing
摘要: 自2022年底ChatGPT发布以来,大型语言模型及其评估在学术研究和工业界一直受到持续的讨论和评估。在法律、医学和数学等多个领域已经开发了相应的场景和基准(Bommasani等,2023),并且对模型变体进行持续评估。一个尚未得到足够场景开发关注的领域是新闻业,特别是新闻来源和伦理问题。新闻业是民主中至关重要的真相判定功能(Vincent,2023),而新闻来源是所有原创新闻产出的关键支柱。评估大型语言模型在不同新闻故事中识别和标注新闻来源信号以及记者如何为其提供依据的能力是一个关键场景,值得采用基准方法。这为构建自动化系统以对比更加透明和伦理严谨的新闻形式与日常新闻提供了潜力。在本文中,我们提出一个场景,用于评估大型语言模型在五类新闻来源标识和标注方面的表现,该分类体系受到新闻研究的启发(Gans,2004)。我们提供了使用案例、我们的数据集和指标,作为系统基准测试的第一步。我们的准确度发现表明,基于大型语言模型的方法在识别故事中的所有有据声明以及匹配来源类型方面还有更多需要改进的地方。更困难的任务是识别来源依据。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.