计算机科学 > 人工智能
[提交于 2025年7月11日
]
标题: 通过强化学习的代理安全对齐
标题: Agent Safety Alignment via Reinforcement Learning
摘要: 自主大型语言模型(LLM)代理的出现,能够使用工具,引入了超出传统对话滥用的新安全风险。 这些代理被赋予执行外部功能的能力,容易受到用户发起的威胁(例如,对抗性提示)和工具发起的威胁(例如,受损工具的恶意输出)。 在本文中,我们提出了第一个针对使用工具的代理的统一安全对齐框架,使模型能够通过结构化推理和沙箱强化学习处理这两种威胁渠道。 我们引入了一个三模态分类法,包括良性、恶意和敏感,适用于用户提示和工具响应,并定义了一个策略驱动的决策模型。 我们的框架采用了一个自定义设计的沙箱环境,模拟真实世界的工具执行,并允许细粒度的奖励塑造。 通过在公共和自建基准上的广泛评估,包括Agent SafetyBench、InjecAgent和BFCL,我们证明了我们的安全对齐代理在增强对安全威胁的抵抗力的同时,保持了在良性任务上的强大实用性。 我们的结果表明,安全性和有效性可以共同优化,为自主LLM代理的可信部署奠定了基础。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.