计算机科学 > 计算与语言
[提交于 2024年12月30日
]
标题: CaseSumm:来自美国最高法院意见的长上下文摘要的大规模数据集
标题: CaseSumm: A Large-Scale Dataset for Long-Context Summarization from U.S. Supreme Court Opinions
摘要: 本文介绍了 CaseSumm,这是一个针对法律领域长上下文摘要的新数据集,旨在满足对更长、更复杂数据集用于摘要评估的需求。 我们收集了 25,600 篇美国最高法院 (SCOTUS) 意见及其官方摘要,这些摘要被称为“概要”。 我们的数据集是最大的公开可用的法律案件摘要数据集,并且是首个包括追溯到 1815 年的 SCOTUS 决策摘要的数据集。 我们还通过自动指标和专家人工评估全面评估了大型语言模型生成的摘要,揭示了这些评估方法之间的差异。 我们的评估显示,Mistral 7b,一个较小的开源模型,在大多数自动指标上优于更大的模型,并成功生成了类似概要的摘要。 相比之下,人类专家标注员指出 Mistral 摘要包含幻觉。 标注员一致认为 GPT-4 摘要更清晰,并表现出更高的敏感性和特异性。 此外,我们发现基于大型语言模型的评估与传统自动指标相比,并未显示出更高的与人类评估的相关性。 此外,我们的分析确定了生成摘要中的特定幻觉,包括先例引用错误和案件事实的误传。 这些发现展示了当前自动评估方法在法律摘要方面的局限性,并强调了人工评估在评估摘要质量方面的重要作用,特别是在复杂且高风险的领域。 CaseSumm 可在 https://huggingface.co/datasets/ChicagoHAI/CaseSumm 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.