计算机科学 > 机器学习
[提交于 2025年7月2日
]
标题: 无需窥探的调优:LLM后训练的可证明隐私和泛化界限
标题: Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training
摘要: 基于梯度的优化是深度学习的核心,通过反向传播提供高效且可扩展的训练。然而,其对大量标记数据的依赖引发了隐私和安全问题,如容易受到数据污染攻击和过拟合的风险。相比之下,黑盒优化方法将模型视为一个不透明的函数,仅依靠函数评估来指导优化,在数据访问受限、对抗风险高或过拟合是关注点的情况下,提供了有前景的替代方案。然而,黑盒方法也带来了重大挑战,包括在高维参数空间中的可扩展性差,这在大型语言模型(LLMs)中很常见,以及由于依赖大量模型评估而导致的高计算成本。本文介绍了BBoxER,这是一种用于LLM后训练的进化黑盒方法,通过隐式压缩训练数据来引入信息瓶颈。利用信息流的可处理性,我们提供了泛化、差分隐私、对数据污染攻击的易感性和对提取攻击的鲁棒性的强理论界限。BBoxER在预训练的LLMs之上运行,提供了一种轻量级且模块化的增强,适用于受限或隐私敏感环境,除了非空泛化保证外。在LLM的实验中,我们实证表明重构方法能够学习,展示了BBoxER的几次迭代如何在推理数据集基准上提高性能并具有良好的泛化能力。这使BBoxER成为基于梯度的优化的一个有吸引力的附加组件。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.