计算机科学 > 机器学习
[提交于 2025年5月30日
]
标题: 解耦的安全适配器能够实现高效的护栏和灵活的推理时对齐
标题: Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment
摘要: 现有确保人工智能安全的范式,如护栏模型和对齐训练,通常会牺牲推理效率或开发灵活性。 我们引入了解耦安全适配器(DSA),这是一种新颖的框架,通过将与安全相关的计算从任务优化的基础模型中解耦来解决这些挑战。 DSA 利用轻量级适配器,利用基础模型的内部表示,以最小的推理成本影响实现多样化和灵活的安全功能。 实证研究表明,基于 DSA 的安全护栏显著优于同等规模的独立模型,在幻觉检测(Summedits 上的 0.88 对比 0.61 AUC)、仇恨言论分类(ToxiGen 上的 0.98 对比 0.92)以及不安全模型输入和响应分类(AEGIS2.0 和 BeaverTails 上的 0.93 对比 0.90)方面表现出色。 此外,基于 DSA 的安全对齐允许动态、推理时调整对齐强度,并在指令跟随性能和模型安全性之间实现细粒度权衡。 重要的是,结合 DSA 安全护栏与 DSA 安全对齐可实现上下文相关的对齐强度,在 StrongReject 上将安全性提高 93%,同时在 MTBench 上保持 98% 的性能——相比标准的安全对齐微调,总体减少了 8 个百分点的对齐税。 总体而言, DSA 为更模块化、高效且适应性强的人工智能安全与对齐提供了一条有前景的道路。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.