计算机科学 > 图形学
[提交于 2025年6月24日
]
标题: 使用稀疏自编码器揭示生成图像模型中的概念盲点
标题: Uncovering Conceptual Blindspots in Generative Image Models Using Sparse Autoencoders
摘要: 尽管它们表现出色,但在大规模数据集上训练的生成图像模型经常无法生成看似简单的概念的图像——例如人类的手或成组出现的物体——这些概念在训练数据中是合理预期会出现的。 这些失败模式主要通过轶事记录下来,这使得是否它们反映了独特的异常还是这些模型的更结构性限制的问题仍然悬而未决。 为了解决这个问题,我们引入了一种系统的方法来识别和描述“概念盲点”——即存在于训练数据中但在模型生成中缺失或被错误表示的概念。 我们的方法利用稀疏自编码器(SAEs)提取可解释的概念嵌入,从而能够对真实图像和生成图像中的概念流行程度进行定量比较。 我们在DINOv2特征上训练了一个典型的SAE(RA-SAE),包含32,000个概念——迄今为止最大的此类SAE——使我们可以对概念差异进行细粒度分析。 应用于四个流行的生成模型(Stable Diffusion 1.5/2.1、PixArt和Kandinsky),我们的方法揭示了特定的抑制盲点(例如鸟食器、DVD光盘和文档上的空白区域)和夸大盲点(例如木质背景纹理和棕榈树)。 在单个数据点层面,我们进一步隔离了记忆化伪像——即模型在训练期间看到的高度具体的视觉模板的重复。 总体而言,我们提出了一种理论上有根据的框架,通过评估模型与潜在数据生成过程的概念保真度,系统地识别生成模型中的概念盲点。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.