计算机科学 > 计算与语言
[提交于 2025年6月25日
]
标题: 揭示LLMs中的隐藏暴力倾向:通过行为情景进行的人口统计分析
标题: Uncovering Hidden Violent Tendencies in LLMs: A Demographic Analysis via Behavioral Vignettes
摘要: 大型语言模型(LLMs)越来越多地被提出用于检测和应对在线暴力内容,但它们在推理道德模糊、现实世界场景方面的能力仍缺乏深入研究。 我们进行了第一个研究,使用经过验证的社会科学工具来评估LLMs,该工具旨在衡量人类对日常冲突的反应,即暴力行为情景问卷(VBVQ)。 为了评估潜在的偏见,我们引入了基于角色的提示,该提示在美国范围内变化种族、年龄和地理身份。 在统一的零样本设置下,评估了六个在不同地缘政治和组织背景下开发的LLMs。 我们的研究揭示了两个关键发现:(1)LLMs表层文本生成往往与其对暴力回应的内部偏好相偏离;(2)它们的暴力倾向在不同人口统计学中有所变化,经常与犯罪学、社会科学和心理学中的既有发现相矛盾。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.