Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.00164

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2501.00164 (cs)
[提交于 2024年12月30日 (v1) ,最后修订 2025年4月3日 (此版本, v2)]

标题: 衡量大型语言模型标注新闻来源的能力

标题: Measuring Large Language Models Capacity to Annotate Journalistic Sourcing

Authors:Subramaniam Vincent, Phoebe Wang, Zhan Shi, Sahas Koka, Yi Fang
摘要: 自2022年底ChatGPT发布以来,大型语言模型及其评估在学术研究和工业界一直受到持续的讨论和评估。在法律、医学和数学等多个领域已经开发了相应的场景和基准(Bommasani等,2023),并且对模型变体进行持续评估。一个尚未得到足够场景开发关注的领域是新闻业,特别是新闻来源和伦理问题。新闻业是民主中至关重要的真相判定功能(Vincent,2023),而新闻来源是所有原创新闻产出的关键支柱。评估大型语言模型在不同新闻故事中识别和标注新闻来源信号以及记者如何为其提供依据的能力是一个关键场景,值得采用基准方法。这为构建自动化系统以对比更加透明和伦理严谨的新闻形式与日常新闻提供了潜力。在本文中,我们提出一个场景,用于评估大型语言模型在五类新闻来源标识和标注方面的表现,该分类体系受到新闻研究的启发(Gans,2004)。我们提供了使用案例、我们的数据集和指标,作为系统基准测试的第一步。我们的准确度发现表明,基于大型语言模型的方法在识别故事中的所有有据声明以及匹配来源类型方面还有更多需要改进的地方。更困难的任务是识别来源依据。
摘要: Since the launch of ChatGPT in late 2022, the capacities of Large Language Models and their evaluation have been in constant discussion and evaluation both in academic research and in the industry. Scenarios and benchmarks have been developed in several areas such as law, medicine and math (Bommasani et al., 2023) and there is continuous evaluation of model variants. One area that has not received sufficient scenario development attention is journalism, and in particular journalistic sourcing and ethics. Journalism is a crucial truth-determination function in democracy (Vincent, 2023), and sourcing is a crucial pillar to all original journalistic output. Evaluating the capacities of LLMs to annotate stories for the different signals of sourcing and how reporters justify them is a crucial scenario that warrants a benchmark approach. It offers potential to build automated systems to contrast more transparent and ethically rigorous forms of journalism with everyday fare. In this paper we lay out a scenario to evaluate LLM performance on identifying and annotating sourcing in news stories on a five-category schema inspired from journalism studies (Gans, 2004). We offer the use case, our dataset and metrics and as the first step towards systematic benchmarking. Our accuracy findings indicate LLM-based approaches have more catching to do in identifying all the sourced statements in a story, and equally, in matching the type of sources. An even harder task is spotting source justifications.
主题: 计算与语言 (cs.CL) ; 计算机与社会 (cs.CY)
引用方式: arXiv:2501.00164 [cs.CL]
  (或者 arXiv:2501.00164v2 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.00164
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Yi Fang [查看电子邮件]
[v1] 星期一, 2024 年 12 月 30 日 22:15:57 UTC (852 KB)
[v2] 星期四, 2025 年 4 月 3 日 16:54:12 UTC (1,272 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • 其他格式
查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.CY

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号