Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2506.19297

帮助 | 高级搜索

电气工程与系统科学 > 图像与视频处理

arXiv:2506.19297 (eess)
[提交于 2025年6月24日 ]

标题: 基于残差的显式可扩展图像编码用于人类和机器

标题: Explicit Residual-Based Scalable Image Coding for Humans and Machines

Authors:Yui Tatsumi, Ziyue Zeng, Hiroshi Watanabe
摘要: 可扩展图像压缩是一种逐步重建不同需求下图像多个版本的技术。 近年来,图像不仅被人类消费,也被图像识别模型消费。 这种转变引起了对同时服务于机器视觉和人类视觉(ICMH)的可扩展图像压缩方法的越来越多的关注。 许多现有模型采用基于神经网络的编解码器,称为学习图像压缩,并通过精心设计损失函数在该领域取得了显著进展。 然而,在某些情况下,模型过于依赖其学习能力,而其架构设计未得到充分考虑。 在本文中,我们通过整合一种显式残差压缩机制来增强ICMH框架的编码效率和可解释性,该机制通常用于如JPEG2000之类的分辨率可扩展编码方法中。 具体而言,我们提出了两种互补的方法: 基于特征残差的可扩展编码(FR-ICMH)和基于像素残差的可扩展编码(PR-ICMH)。 这些提出的方法适用于各种机器视觉任务。 此外,它们提供了在编码器复杂性和压缩性能之间进行选择的灵活性,使其能够适应不同的应用需求。 实验结果证明了我们所提方法的有效性,其中PR-ICMH相比之前的工作实现了高达29.57%的BD率节省。
摘要: Scalable image compression is a technique that progressively reconstructs multiple versions of an image for different requirements. In recent years, images have increasingly been consumed not only by humans but also by image recognition models. This shift has drawn growing attention to scalable image compression methods that serve both machine and human vision (ICMH). Many existing models employ neural network-based codecs, known as learned image compression, and have made significant strides in this field by carefully designing the loss functions. In some cases, however, models are overly reliant on their learning capacity, and their architectural design is not sufficiently considered. In this paper, we enhance the coding efficiency and interpretability of ICMH framework by integrating an explicit residual compression mechanism, which is commonly employed in resolution scalable coding methods such as JPEG2000. Specifically, we propose two complementary methods: Feature Residual-based Scalable Coding (FR-ICMH) and Pixel Residual-based Scalable Coding (PR-ICMH). These proposed methods are applicable to various machine vision tasks. Moreover, they provide flexibility to choose between encoder complexity and compression performance, making it adaptable to diverse application requirements. Experimental results demonstrate the effectiveness of our proposed methods, with PR-ICMH achieving up to 29.57% BD-rate savings over the previous work.
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.19297 [eess.IV]
  (或者 arXiv:2506.19297v1 [eess.IV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.19297
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Yui Tatsumi [查看电子邮件]
[v1] 星期二, 2025 年 6 月 24 日 04:01:53 UTC (15,720 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
eess.IV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.CV
eess

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号