计算机科学 > 软件工程
[提交于 2025年1月3日
]
标题: 模型有多毒?大型语言模型的基于搜索的毒性测试
标题: How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models
摘要: 语言是一种根深蒂固的刻板印象和歧视延续手段。 大型语言模型(LLMs)如今已是我们日常生活中无处不在的技术,当它们容易生成有害内容时,可能会造成广泛的伤害。 解决该问题的标准方法是对齐LLM,然而这种方法只是缓解了问题,并未构成最终解决方案。 因此,在对齐努力之后,测试LLM仍然至关重要,以便检测是否仍有违反伦理标准的偏差存在。 我们提出了 EvoTox,这是一种针对LLM毒性倾向的自动化测试框架,提供了一种定量评估的方法,即使在对齐的情况下,也能衡量LLM被推向有害响应的程度。 该框架采用了一种迭代进化策略,利用测试系统(SUT)与提示生成器之间的相互作用,其中提示生成器引导SUT响应向更高毒性发展。 毒性水平由基于现有毒性分类器的自动化仲裁程序评估。 我们使用四个最先进的LLM作为评估对象(参数从7亿到13亿不等)进行了定量和定性的实证评估。 我们的定量评估基于随机搜索、精心策划的有毒提示数据集以及对抗性攻击,比较了四种不同版本的 EvoTox的成本效益。 我们的定性评估则让人类评估员对生成的提示流畅性和测试过程中收集的响应感知毒性进行评分。 结果显示,在检测到的毒性水平方面,其效果显著高于所选的基线方法(相对于随机搜索的效果量可达1.0,相对于对抗性攻击的效果量可达0.99)。 此外,EvoTox产生的成本增加有限(平均为22%到35%)。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.