计算机科学 > 密码学与安全
[提交于 2025年7月22日
]
标题: 深度给出了隐私的虚假感:LLM内部状态反转
标题: Depth Gives a False Sense of Privacy: LLM Internal States Inversion
摘要: 大型语言模型(LLMs)越来越多地融入日常流程,但它们引发了重要的隐私和安全问题。 最近的研究提出了协作推理,将早期层的推理外包以确保数据本地性,并基于内部神经元模式引入了模型安全审计。 这两种技术暴露了LLM的内部状态(ISs),这些状态传统上由于优化挑战和深度层的高度抽象表示而被认为不可逆。 在这项工作中,我们通过提出四种反演攻击来挑战这一假设,这些攻击显著提高了反演输入的语义相似性和标记匹配率。 具体来说,我们首先开发了两种针对低深度和高深度ISs的白盒优化攻击。 这些攻击通过两阶段的反演过程避免了局部最小值收敛,这是之前工作中观察到的限制。 然后,我们通过利用源LLM和衍生LLM之间的可迁移性,在更实际的黑盒权重访问下扩展了我们的优化攻击。 此外,我们引入了一种基于生成的攻击,将反演视为一个翻译任务,使用反演模型来重建输入。 对来自医疗咨询和代码协助数据集的短提示和长提示以及6个LLM的广泛评估验证了我们的反演攻击的有效性。 值得注意的是,一个4,112个标记的医疗咨询提示可以在Llama-3模型的中间层中几乎完美地反演,标记匹配率为86.88 F1。 最后,我们评估了四种我们发现无法完全防止ISs反演的实用防御措施,并为未来的缓解设计得出结论。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.