计算机科学 > 机器学习
[提交于 2025年7月9日
]
标题: 代表性不足、标签偏差和代理指标:面向欧盟人工智能法案及更广泛的数据偏差概况
标题: Underrepresentation, Label Bias, and Proxies: Towards Data Bias Profiles for the EU AI Act and Beyond
摘要: 数据中编码的不良偏差是算法歧视的关键驱动因素。 它们在算法公平性文献以及人工智能反歧视的立法和标准中被广泛认可。 尽管有这种认识,数据偏差仍然研究不足,阻碍了其检测和缓解的计算最佳实践的发展。 在本工作中,我们提出了三种常见的数据偏差,并研究它们在各种数据集、模型和公平性度量上对算法歧视的单独和联合影响。 我们发现,训练集中弱势群体的代表性不足比传统认为的更不利于歧视,而代理变量和标签偏差的组合可能更加关键。 因此,我们开发了专门的机制来检测特定类型的偏差,并将它们组合成一个初步构建,我们称之为数据偏差档案(DBP)。 这一初始公式作为如何系统地记录不同偏差信号的证明概念。 通过与流行的公平性数据集的案例研究,我们展示了DBP在预测歧视性结果的风险以及公平增强干预措施的效用方面的有效性。 总体而言,本文通过以数据为中心的视角,将算法公平性研究与反歧视政策联系起来。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.