计算机科学 > 计算与语言
[提交于 2024年12月30日
]
标题: 以数据为中心的方法检测和减轻儿童心理健康文本中的人口统计学偏差:焦虑检测案例研究
标题: A Data-Centric Approach to Detecting and Mitigating Demographic Bias in Pediatric Mental Health Text: A Case Study in Anxiety Detection
摘要: 介绍:医疗AI模型通常会从其训练数据中继承偏见。尽管努力主要集中在结构化数据中的偏见上,但心理健康高度依赖于非结构化数据。本研究旨在检测和减轻用于辅助儿童心理健康筛查的AI模型训练数据中与非生物学差异相关的语言差异。我们的目标是:(1)通过评估性别子组的结果公平性来评估偏见的存在,(2)通过文本分布分析识别偏见来源,(3)开发一种针对心理健康文本数据的去偏方法。方法:我们检查了不同人口统计群体之间的分类公平性,并评估了性别化语言如何影响模型预测。应用了一种以数据为中心的去偏方法,专注于中和有偏术语,同时保留显著的临床信息。该方法在针对儿童患者自动焦虑检测的模型上进行了测试。结果:我们的研究结果揭示了对女性青少年患者的系统性误诊,与男性患者相比,准确率低4%,假阴性率(FNR)高9%,这可能是由于信息密度和患者记录中的语言差异所致。男性患者的记录平均长500个单词,语言相似性指标表明性别之间的词语分布存在差异。实施我们的去偏方法将诊断偏差减少了高达27%,证明了其在提高不同人口群体之间公平性方面的有效性。讨论:我们开发了一个以数据为中心的去偏框架,以解决临床文本中的基于性别的内容差异。通过中和有偏语言并增强对临床关键信息的关注,我们的方法展示了一种有效缓解基于文本训练的医疗AI模型中偏见的策略。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.