计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月15日
(v1)
,最后修订 2025年6月26日 (此版本, v2)]
标题: 保持结构的补丁解码用于高效的神经视频表示
标题: Structure-Preserving Patch Decoding for Efficient Neural Video Representation
摘要: 隐式神经表示(INRs)是广泛研究的主题,尤其是在通过将空间和时间坐标映射到相应值来建模复杂信号方面的应用。 在处理视频时,将紧凑输入映射到整个帧或空间划分的块图像是一种有效的方法。 与基于坐标的映射相比,这种策略更能保持空间关系,减少计算开销,并提高重建质量。 然而,预测整个帧通常会限制高频视觉细节的重建。 此外,基于均匀空间划分的传统块方法容易引入边界不连续性,从而降低空间一致性。 我们提出了一种基于结构保持块(SPPs)的神经视频表示方法,以解决这些限制。 我们的方法通过一种类似于PixelUnshuffle的确定性像素级分割,将每个视频帧分割为空间对齐的块图像。 此操作在保留全局空间结构的同时,允许块级解码。 我们训练解码器来重建这些结构化块,从而实现先捕捉全局布局再细化局部细节的全局到局部解码策略。 这有效地减少了边界伪影,并减轻了简单上采样的失真。 在标准视频数据集上的实验表明,我们的方法在重建质量和压缩性能方面优于现有的基于INR的基线方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.