计算机科学 > 分布式、并行与集群计算
[提交于 2025年5月27日
]
标题: 基于向量化序列的块划分用于数据去重
标题: Vectorized Sequence-Based Chunking for Data Deduplication
摘要: 数据去重作为一种提高存储效率和节约网络带宽的机制广受赞誉,而其最关键的阶段——数据分块,则负责通过去重过程实现的整体空间节省。然而,现代的数据分块算法速度慢且计算密集,因为它们需要扫描大量数据,同时做出基于数据的边界决策。我们提出了SeqCDC,这是一种新颖的分块算法,利用轻量级边界检测、内容定义跳过以及SSE/AVX加速来提升大块大小的分块吞吐量。我们的评估显示,SeqCDC的吞吐量比未加速的算法高出15倍,并且比向量加速的数据分块算法高出1.2到1.35倍,同时对去重的空间节省影响极小。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.