电气工程与系统科学 > 图像与视频处理
[提交于 2025年4月3日
]
标题: 基于特征保留率失真优化的机器图像编码
标题: Image Coding for Machines via Feature-Preserving Rate-Distortion Optimization
摘要: 许多图像和视频主要通过计算机视觉算法进行处理,仅涉及偶尔的人类检查。当此类内容需要在处理前进行压缩时(例如,在分布式应用中),编码方法必须优化视觉质量和下游任务性能。我们首先表明,鉴于从原始图像和解码图像获得的特征,减少压缩对任务损失影响的一种方法是使用特征之间的距离作为失真度量,通过率失真优化(RDO)进行操作。然而,直接优化这种率失真权衡需要针对每种编码参数的编码、解码和特征评估的迭代工作流程,这在计算上是不切实际的。我们通过简化RDO公式来解决这个问题,使失真项能够使用基于块的编码器进行计算。我们首先将泰勒展开应用于特征提取器,将特征距离重新表述为具有神经网络雅可比矩阵的二次度量。然后,我们将线性化度量替换为基于块的近似值,我们称之为输入相关的平方误差(IDSE)。为了降低计算复杂度,我们使用雅可比草图来近似IDSE。由此产生的损失可以在变换域中以块为单位进行评估,并与平方误差和(SSE)结合,以同时解决视觉质量和计算机视觉性能。跨多个特征提取器和下游神经网络的AVC模拟显示,与基于SSE的RDO相比,对于相同的计算机视觉准确性,可以节省高达10%的比特率,且没有解码器复杂度开销,编码器复杂度仅增加7%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.