统计学 > 应用
[提交于 2025年3月19日
]
标题: 一种平滑插值到最优传输的算法以恢复有偏数据实现算法公平性提案
标题: A proposal of smooth interpolation to optimal transport for restoring biased data for algorithmic fairness
摘要: 所谓算法偏见是在基于人工智能的决策过程中一个热门话题,特别是在涉及人口统计特征(如性别、年龄或种族起源)时。 通常,问题不仅在于算法本身,还在于喂养算法的有偏数据,而这只是社会偏见的反映。 因此,必须修复提供给算法的“食物”,以使其对所有人产生无偏的结果。 作为一个简单的但常见的案例,将考虑两个不同的子组,即特权组和非特权组。 假设结果不应依赖于划分数据的这种特性,那么每个组的其余属性必须被移动(运输),以便可以认为其潜在分布是相似的。 为此,使用最优传输(OT)理论有效地运输特征值(敏感变量除外)到两个分布中每组条件下的所谓{\it 沃瑟斯坦重心}。 为了实现这一点,采用了一种基于{\it 拍卖算法}的高效程序。 该运输是对现有数据进行的。 如果新的数据到达,则必须为新集合解决OT问题,该集合包括之前的数据和即将到达的数据,这效率较低。 相反,本文提出了一种称为\textit{扩展总修复(ExTR)}的平滑插值过程的实现,这是本文的主要贡献之一。 该方法论被成功应用于模拟的有偏数据以及用于风险评估预测的德国信用数据集的真实案例中。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.