计算机科学 > 计算机与社会
[提交于 2025年3月4日
(v1)
,最后修订 2025年3月14日 (此版本, v3)]
标题: 不要信任您看到的许可证:数据集合规性需要大规模人工智能驱动的生命周期追踪
标题: Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing
摘要: 本文认为,仅凭数据集的许可条款无法准确评估其法律风险;相反,跟踪数据集的再分发及其整个生命周期是必不可少的。 然而,这一过程对于法律专家来说,在大规模情况下手动处理过于复杂。 跟踪数据集的来源,验证再分发权利,并在多个阶段评估不断变化的法律风险,需要精确和高效的水平,这超出了人类的能力。 有效应对这一挑战需要AI代理,它们可以系统地追踪数据集的再分发,分析合规性,并识别法律风险。 我们开发了一个称为NEXUS的自动化数据合规系统,并表明AI可以在准确性、效率和成本效益方面优于人类专家执行这些任务。 我们使用这种方法对17,429个唯一实体和8,072个许可条款进行了大规模的法律分析,揭示了再分发前原始数据集与其再分发子集之间的法律权利差异,强调了数据生命周期意识合规的必要性。 例如,我们发现,在2,852个具有商业可行个体许可条款的数据集中,只有605个(21%)在法律上允许商业化。 这项工作为AI数据治理设定了新标准,倡导一种系统地检查数据集再分发整个生命周期的框架,以确保数据集管理的透明、合法和负责任。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.