Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.05578

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2507.05578 (cs)
[提交于 2025年7月8日 ]

标题: LLMs中记忆的景观:机制、测量和缓解

标题: The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation

Authors:Alexander Xiong, Xuandong Zhao, Aneesh Pappu, Dawn Song
摘要: 大型语言模型(LLMs)在众多任务中表现出色,但它们也会记忆训练数据。 这一现象引发了关于模型行为、隐私风险以及学习与记忆之间界限的关键问题。 为解决这些问题,本文综合了近期的研究,并探讨了记忆的现状、影响因素以及检测和缓解方法。 我们探讨了关键驱动因素,包括训练数据重复、训练动态以及微调过程对数据记忆的影响。 此外,我们还研究了诸如基于前缀的提取、成员推断和对抗性提示等方法,评估它们在检测和测量记忆内容方面的有效性。 除了技术分析,我们还探讨了记忆的更广泛影响,包括法律和伦理影响。 最后,我们讨论了缓解策略,包括数据清理、差分隐私和训练后遗忘,同时强调了在最小化有害记忆与实用性之间取得平衡的开放挑战。 本文从技术、隐私和性能维度全面概述了当前关于LLM记忆的研究现状,并指出了未来工作的关键方向。
摘要: Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, yet they also exhibit memorization of their training data. This phenomenon raises critical questions about model behavior, privacy risks, and the boundary between learning and memorization. Addressing these concerns, this paper synthesizes recent studies and investigates the landscape of memorization, the factors influencing it, and methods for its detection and mitigation. We explore key drivers, including training data duplication, training dynamics, and fine-tuning procedures that influence data memorization. In addition, we examine methodologies such as prefix-based extraction, membership inference, and adversarial prompting, assessing their effectiveness in detecting and measuring memorized content. Beyond technical analysis, we also explore the broader implications of memorization, including the legal and ethical implications. Finally, we discuss mitigation strategies, including data cleaning, differential privacy, and post-training unlearning, while highlighting open challenges in balancing the minimization of harmful memorization with utility. This paper provides a comprehensive overview of the current state of research on LLM memorization across technical, privacy, and performance dimensions, identifying critical directions for future work.
主题: 机器学习 (cs.LG) ; 计算与语言 (cs.CL); 密码学与安全 (cs.CR)
引用方式: arXiv:2507.05578 [cs.LG]
  (或者 arXiv:2507.05578v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.05578
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Xuandong Zhao [查看电子邮件]
[v1] 星期二, 2025 年 7 月 8 日 01:30:46 UTC (528 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.CL
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号