Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.12872

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2507.12872 (cs)
[提交于 2025年7月17日 ]

标题: 通过对齐错误的人工智能的操纵攻击:风险分析与安全案例框架

标题: Manipulation Attacks by Misaligned AI: Risk Analysis and Safety Case Framework

Authors:Rishane Dassanayake, Mario Demetroudi, James Walpole, Lindley Lentati, Jason R. Brown, Edward James Young
摘要: 前沿人工智能系统在说服、欺骗和影响人类行为方面的能力正在迅速提升,当前模型已经在特定情境中展现出人类水平的说服力和战略欺骗能力。 人类通常是网络安全系统中最薄弱的环节,一个内部部署的对齐不当的人工智能系统可能会通过操纵员工来削弱人类监督。 尽管这一威胁日益增长,但操控攻击却很少受到关注,目前尚无系统框架用于评估和缓解这些风险。 为了解决这个问题,我们详细解释了为什么操控攻击是一个重大威胁,并可能导致灾难性后果。 此外,我们提出了一种针对操控风险的安全论证框架,该框架围绕三个核心论点展开:无能、控制和可信度。 对于每个论点,我们明确了证据要求、评估方法和实施考虑因素,以便人工智能公司直接应用。 本文提供了将操控风险纳入人工智能安全治理的第一个系统方法,为人工智能公司提供了一个具体的基础,在部署前评估和缓解这些威胁。
摘要: Frontier AI systems are rapidly advancing in their capabilities to persuade, deceive, and influence human behaviour, with current models already demonstrating human-level persuasion and strategic deception in specific contexts. Humans are often the weakest link in cybersecurity systems, and a misaligned AI system deployed internally within a frontier company may seek to undermine human oversight by manipulating employees. Despite this growing threat, manipulation attacks have received little attention, and no systematic framework exists for assessing and mitigating these risks. To address this, we provide a detailed explanation of why manipulation attacks are a significant threat and could lead to catastrophic outcomes. Additionally, we present a safety case framework for manipulation risk, structured around three core lines of argument: inability, control, and trustworthiness. For each argument, we specify evidence requirements, evaluation methodologies, and implementation considerations for direct application by AI companies. This paper provides the first systematic methodology for integrating manipulation risk into AI safety governance, offering AI companies a concrete foundation to assess and mitigate these threats before deployment.
评论: 24页(14页正文,4页参考文献,6页附录),3幅图
主题: 人工智能 (cs.AI) ; 密码学与安全 (cs.CR); 人机交互 (cs.HC)
引用方式: arXiv:2507.12872 [cs.AI]
  (或者 arXiv:2507.12872v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.12872
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Edward Young [查看电子邮件]
[v1] 星期四, 2025 年 7 月 17 日 07:45:53 UTC (571 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.CR
cs.HC

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号