计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月7日
]
标题: ICAS:从自回归图像生成模型中检测训练数据
标题: ICAS: Detecting Training Data from Autoregressive Image Generative Models
摘要: 自回归图像生成已经取得了快速的发展,其中具有代表性的模型如逐尺度视觉自回归推动了视觉合成的边界。 然而,这些发展也引发了关于数据隐私和版权的重要担忧。 作为回应,训练数据检测已成为识别模型训练中未经授权数据使用的关键任务。 为了更好地了解自回归图像生成模型对此类检测的脆弱性,我们进行了首次将成员推断应用于该领域的研究。 我们的方法包括两个关键组件:隐式分类和自适应得分聚合策略。 首先,我们在查询图像中计算隐式的逐标记分类得分。 然后我们提出一种自适应得分聚合策略以获得最终得分,该策略更重视得分较低的标记。 较高的最终得分表明该样本更可能涉及训练集。 为了验证我们方法的有效性,我们将原本为大型语言模型设计的现有检测算法适应到视觉自回归模型中。 大量实验表明,我们的方法在类别条件和文本到图像场景中都表现出优越性。 此外,在各种数据变换下,我们的方法表现出强大的鲁棒性和泛化能力。 此外,充分的实验表明了两个新的关键发现:(1) 成员推断的线性缩放定律,揭示了大型基础模型的脆弱性。 (2) 逐尺度视觉自回归模型的训练数据比其他自回归范式更容易检测。 我们的代码可在 https://github.com/Chrisqcwx/ImageAR-MIA 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.