电气工程与系统科学 > 图像与视频处理
[提交于 2025年6月24日
]
标题: 基于残差的显式可扩展图像编码用于人类和机器
标题: Explicit Residual-Based Scalable Image Coding for Humans and Machines
摘要: 可扩展图像压缩是一种逐步重建不同需求下图像多个版本的技术。 近年来,图像不仅被人类消费,也被图像识别模型消费。 这种转变引起了对同时服务于机器视觉和人类视觉(ICMH)的可扩展图像压缩方法的越来越多的关注。 许多现有模型采用基于神经网络的编解码器,称为学习图像压缩,并通过精心设计损失函数在该领域取得了显著进展。 然而,在某些情况下,模型过于依赖其学习能力,而其架构设计未得到充分考虑。 在本文中,我们通过整合一种显式残差压缩机制来增强ICMH框架的编码效率和可解释性,该机制通常用于如JPEG2000之类的分辨率可扩展编码方法中。 具体而言,我们提出了两种互补的方法: 基于特征残差的可扩展编码(FR-ICMH)和基于像素残差的可扩展编码(PR-ICMH)。 这些提出的方法适用于各种机器视觉任务。 此外,它们提供了在编码器复杂性和压缩性能之间进行选择的灵活性,使其能够适应不同的应用需求。 实验结果证明了我们所提方法的有效性,其中PR-ICMH相比之前的工作实现了高达29.57%的BD率节省。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.