Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.08270

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2507.08270 (cs)
[提交于 2025年7月11日 ]

标题: 通过强化学习的代理安全对齐

标题: Agent Safety Alignment via Reinforcement Learning

Authors:Zeyang Sha, Hanling Tian, Zhuoer Xu, Shiwen Cui, Changhua Meng, Weiqiang Wang
摘要: 自主大型语言模型(LLM)代理的出现,能够使用工具,引入了超出传统对话滥用的新安全风险。 这些代理被赋予执行外部功能的能力,容易受到用户发起的威胁(例如,对抗性提示)和工具发起的威胁(例如,受损工具的恶意输出)。 在本文中,我们提出了第一个针对使用工具的代理的统一安全对齐框架,使模型能够通过结构化推理和沙箱强化学习处理这两种威胁渠道。 我们引入了一个三模态分类法,包括良性、恶意和敏感,适用于用户提示和工具响应,并定义了一个策略驱动的决策模型。 我们的框架采用了一个自定义设计的沙箱环境,模拟真实世界的工具执行,并允许细粒度的奖励塑造。 通过在公共和自建基准上的广泛评估,包括Agent SafetyBench、InjecAgent和BFCL,我们证明了我们的安全对齐代理在增强对安全威胁的抵抗力的同时,保持了在良性任务上的强大实用性。 我们的结果表明,安全性和有效性可以共同优化,为自主LLM代理的可信部署奠定了基础。
摘要: The emergence of autonomous Large Language Model (LLM) agents capable of tool usage has introduced new safety risks that go beyond traditional conversational misuse. These agents, empowered to execute external functions, are vulnerable to both user-initiated threats (e.g., adversarial prompts) and tool-initiated threats (e.g., malicious outputs from compromised tools). In this paper, we propose the first unified safety-alignment framework for tool-using agents, enabling models to handle both channels of threat via structured reasoning and sandboxed reinforcement learning. We introduce a tri-modal taxonomy, including benign, malicious, and sensitive for both user prompts and tool responses, and define a policy-driven decision model. Our framework employs a custom-designed sandbox environment that simulates real-world tool execution and allows fine-grained reward shaping. Through extensive evaluations on public and self-built benchmarks, including Agent SafetyBench, InjecAgent, and BFCL, we demonstrate that our safety-aligned agents significantly improve resistance to security threats while preserving strong utility on benign tasks. Our results show that safety and effectiveness can be jointly optimized, laying the groundwork for trustworthy deployment of autonomous LLM agents.
主题: 人工智能 (cs.AI) ; 密码学与安全 (cs.CR)
引用方式: arXiv:2507.08270 [cs.AI]
  (或者 arXiv:2507.08270v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.08270
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Zeyang Sha [查看电子邮件]
[v1] 星期五, 2025 年 7 月 11 日 02:34:16 UTC (179 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.CR

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号