Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.01870

帮助 | 高级搜索

计算机科学 > 信息论

arXiv:2505.01870 (cs)
[提交于 2025年5月3日 ]

标题: ResiTok:一种支持弹性令牌化的超低速率和鲁棒图像传输框架

标题: ResiTok: A Resilient Tokenization-Enabled Framework for Ultra-Low-Rate and Robust Image Transmission

Authors:Zhenyu Liu, Yi Ma, Rahim Tafazolli
摘要: 实时传输无线网络中的视觉数据仍然极具挑战性,即使利用先进的深度神经网络,在有限带宽和弱连接等严重信道条件下尤其如此。 在本文中,我们提出了一种新颖的弹性标记化使能(ResiTok)框架,旨在实现超低码率图像传输,同时保持高重建质量并具备卓越的鲁棒性。 通过将视觉信息重新组织为由关键标记和补充细节标记组成的分层标记组,ResiTok 实现了在受限信道条件下的渐进编码和视觉质量的优雅降级。 我们的一个重要贡献是一种与专门零出训练策略集成的弹性一维标记化方法,该方法在训练过程中系统地模拟标记丢失,从而赋予神经网络从不完整标记集中有效压缩和重构图像的能力。 此外,自适应信道编码和调制设计根据当前信道条件动态分配编码资源,在极低信道带宽比下仍能提供优越的语义保真度和结构一致性。 评估结果显示,ResiTok 在语义相似性和视觉质量方面优于最先进的方法,并且在具有挑战性的信道条件下具有显著优势。
摘要: Real-time transmission of visual data over wireless networks remains highly challenging, even when leveraging advanced deep neural networks, particularly under severe channel conditions such as limited bandwidth and weak connectivity. In this paper, we propose a novel Resilient Tokenization-Enabled (ResiTok) framework designed for ultra-low-rate image transmission that achieves exceptional robustness while maintaining high reconstruction quality. By reorganizing visual information into hierarchical token groups consisting of essential key tokens and supplementary detail tokens, ResiTok enables progressive encoding and graceful degradation of visual quality under constrained channel conditions. A key contribution is our resilient 1D tokenization method integrated with a specialized zero-out training strategy, which systematically simulates token loss during training, empowering the neural network to effectively compress and reconstruct images from incomplete token sets. Furthermore, the channel-adaptive coding and modulation design dynamically allocates coding resources according to prevailing channel conditions, yielding superior semantic fidelity and structural consistency even at extremely low channel bandwidth ratios. Evaluation results demonstrate that ResiTok outperforms state-of-the-art methods in both semantic similarity and visual quality, with significant advantages under challenging channel conditions.
主题: 信息论 (cs.IT) ; 图像与视频处理 (eess.IV)
引用方式: arXiv:2505.01870 [cs.IT]
  (或者 arXiv:2505.01870v1 [cs.IT] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.01870
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Zhenyu Liu [查看电子邮件]
[v1] 星期六, 2025 年 5 月 3 日 17:20:49 UTC (4,288 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.IT
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs
eess
eess.IV
math
math.IT

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号