计算机科学 > 人工智能
[提交于 2025年7月17日
]
标题: 通过对齐错误的人工智能的操纵攻击:风险分析与安全案例框架
标题: Manipulation Attacks by Misaligned AI: Risk Analysis and Safety Case Framework
摘要: 前沿人工智能系统在说服、欺骗和影响人类行为方面的能力正在迅速提升,当前模型已经在特定情境中展现出人类水平的说服力和战略欺骗能力。 人类通常是网络安全系统中最薄弱的环节,一个内部部署的对齐不当的人工智能系统可能会通过操纵员工来削弱人类监督。 尽管这一威胁日益增长,但操控攻击却很少受到关注,目前尚无系统框架用于评估和缓解这些风险。 为了解决这个问题,我们详细解释了为什么操控攻击是一个重大威胁,并可能导致灾难性后果。 此外,我们提出了一种针对操控风险的安全论证框架,该框架围绕三个核心论点展开:无能、控制和可信度。 对于每个论点,我们明确了证据要求、评估方法和实施考虑因素,以便人工智能公司直接应用。 本文提供了将操控风险纳入人工智能安全治理的第一个系统方法,为人工智能公司提供了一个具体的基础,在部署前评估和缓解这些威胁。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.