计算机科学 > 机器学习
[提交于 2025年7月28日
]
标题: 揭露公平性的幻象:对分布操纵攻击的漏洞审计
标题: Exposing the Illusion of Fairness: Auditing Vulnerabilities to Distributional Manipulation Attacks
摘要: 证明人工智能算法的合规性已成为一个重要的挑战,随着这些算法在现实应用中的广泛部署。检查可能的偏见行为是满足欧盟人工智能法案法规约束的必要条件。监管驱动的审计越来越多地依赖于全局公平性指标,其中差异影响是最常用的指标。然而,这些全局度量高度依赖于计算这些度量的样本分布。我们首先研究如何操纵数据样本以人为地满足公平性标准,创建出经过最小扰动的数据集,这些数据集在统计上与原始分布无法区分,同时满足规定的公平性约束。然后我们研究如何检测这种操纵。我们的分析(i)介绍了在公平性约束下使用熵或最优传输投影来修改经验分布的数学上可靠的方法,(ii)探讨了被审计方可能如何规避公平性检查,(iii)提供了帮助审计员检测此类数据操纵的建议。这些结果通过在经典表格数据集上的偏差检测实验得到了验证。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.