计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月1日
]
标题: OptiPrune:通过注意力引导的噪声和动态标记选择提升提示-图像一致性
标题: OptiPrune: Boosting Prompt-Image Consistency with Attention-Guided Noise and Dynamic Token Selection
摘要: 文本到图像扩散模型常常难以在生成的图像和文本提示之间实现准确的语义对齐,同时保持在资源受限硬件上的效率。 现有的方法要么通过噪声优化产生大量的计算开销,要么通过激进地剪枝标记来牺牲语义保真度。 在本工作中,我们提出了OptiPrune,一个统一的框架,结合了感知分布的初始噪声优化与基于相似性的标记剪枝,以同时解决这两个挑战。 具体来说,(1) 我们引入了一个由注意力得分引导的感知分布噪声优化模块,以引导初始潜在噪声朝向语义上有意义的区域,减轻诸如主体忽略和特征纠缠等问题;(2) 我们设计了一种硬件高效的标记剪枝策略,通过逐块相似性选择有代表性的基础标记,注入随机性以增强泛化能力,并在注意力操作前通过最大相似性复制恢复被剪枝的标记。 我们的方法在噪声优化过程中保留了高斯先验,并实现了高效的推理而不牺牲对齐质量。 在包括Animal-Animal在内的基准数据集上的实验表明,OptiPrune在显著降低计算成本的情况下实现了最先进的提示图像一致性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.