Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2503.02784

帮助 | 高级搜索

计算机科学 > 计算机与社会

arXiv:2503.02784 (cs)
[提交于 2025年3月4日 (v1) ,最后修订 2025年3月14日 (此版本, v3)]

标题: 不要信任您看到的许可证:数据集合规性需要大规模人工智能驱动的生命周期追踪

标题: Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing

Authors:Jaekyeom Kim, Sungryull Sohn, Gerrard Jeongwon Jo, Jihoon Choi, Kyunghoon Bae, Hwayoung Lee, Yongmin Park, Honglak Lee
摘要: 本文认为,仅凭数据集的许可条款无法准确评估其法律风险;相反,跟踪数据集的再分发及其整个生命周期是必不可少的。 然而,这一过程对于法律专家来说,在大规模情况下手动处理过于复杂。 跟踪数据集的来源,验证再分发权利,并在多个阶段评估不断变化的法律风险,需要精确和高效的水平,这超出了人类的能力。 有效应对这一挑战需要AI代理,它们可以系统地追踪数据集的再分发,分析合规性,并识别法律风险。 我们开发了一个称为NEXUS的自动化数据合规系统,并表明AI可以在准确性、效率和成本效益方面优于人类专家执行这些任务。 我们使用这种方法对17,429个唯一实体和8,072个许可条款进行了大规模的法律分析,揭示了再分发前原始数据集与其再分发子集之间的法律权利差异,强调了数据生命周期意识合规的必要性。 例如,我们发现,在2,852个具有商业可行个体许可条款的数据集中,只有605个(21%)在法律上允许商业化。 这项工作为AI数据治理设定了新标准,倡导一种系统地检查数据集再分发整个生命周期的框架,以确保数据集管理的透明、合法和负责任。
摘要: This paper argues that a dataset's legal risk cannot be accurately assessed by its license terms alone; instead, tracking dataset redistribution and its full lifecycle is essential. However, this process is too complex for legal experts to handle manually at scale. Tracking dataset provenance, verifying redistribution rights, and assessing evolving legal risks across multiple stages require a level of precision and efficiency that exceeds human capabilities. Addressing this challenge effectively demands AI agents that can systematically trace dataset redistribution, analyze compliance, and identify legal risks. We develop an automated data compliance system called NEXUS and show that AI can perform these tasks with higher accuracy, efficiency, and cost-effectiveness than human experts. Our massive legal analysis of 17,429 unique entities and 8,072 license terms using this approach reveals the discrepancies in legal rights between the original datasets before redistribution and their redistributed subsets, underscoring the necessity of the data lifecycle-aware compliance. For instance, we find that out of 2,852 datasets with commercially viable individual license terms, only 605 (21%) are legally permissible for commercialization. This work sets a new standard for AI data governance, advocating for a framework that systematically examines the entire lifecycle of dataset redistribution to ensure transparent, legal, and responsible dataset management.
主题: 计算机与社会 (cs.CY) ; 人工智能 (cs.AI)
引用方式: arXiv:2503.02784 [cs.CY]
  (或者 arXiv:2503.02784v3 [cs.CY] 对于此版本)
  https://doi.org/10.48550/arXiv.2503.02784
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Jaekyeom Kim [查看电子邮件]
[v1] 星期二, 2025 年 3 月 4 日 16:57:53 UTC (3,627 KB)
[v2] 星期四, 2025 年 3 月 6 日 18:45:51 UTC (3,627 KB)
[v3] 星期五, 2025 年 3 月 14 日 16:58:30 UTC (3,627 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CY
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-03
切换浏览方式为:
cs
cs.AI

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号