Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.02654

帮助 | 高级搜索

计算机科学 > 硬件架构

arXiv:2507.02654 (cs)
[提交于 2025年7月3日 ]

标题: 打破HBM位成本障碍:面向AI推理基础设施的领域专用ECC

标题: Breaking the HBM Bit Cost Barrier: Domain-Specific ECC for AI Inference Infrastructure

Authors:Rui Xie, Asad Ul Haq, Yunhua Fang, Linsen Ma, Sanchari Sen, Swagath Venkataramani, Liu Liu, Tong Zhang
摘要: 高性能内存(HBM)为人工智能工作负载提供了卓越的带宽和能效,但其每个比特的高成本,部分是由于严格的芯片内可靠性要求,正成为可扩展部署的日益增长的障碍。 本研究通过消除芯片内ECC并将其所有故障管理转移到内存控制器,探索了一种系统级的成本降低方法。 我们引入了一个领域特定的ECC框架,结合大码字Reed--Solomon~(RS)纠正与轻量级细粒度CRC检测,差分奇偶校验更新以减轻写入放大效应,并根据数据重要性进行可调保护。 我们使用大型语言模型推理工作负载进行评估,结果显示,即使在原始HBM比特错误率高达$10^{-3}$的情况下,与配备理想无错误HBM的系统相比,该系统仍保留了超过78%的吞吐量和97%的模型准确率。 通过将可靠性视为可调的系统参数而非固定的硬件约束,我们的设计为人工智能基础设施中低成本、高性能HBM的部署开辟了一条新路径。
摘要: High-Bandwidth Memory (HBM) delivers exceptional bandwidth and energy efficiency for AI workloads, but its high cost per bit, driven in part by stringent on-die reliability requirements, poses a growing barrier to scalable deployment. This work explores a system-level approach to cost reduction by eliminating on-die ECC and shifting all fault management to the memory controller. We introduce a domain-specific ECC framework combining large-codeword Reed--Solomon~(RS) correction with lightweight fine-grained CRC detection, differential parity updates to mitigate write amplification, and tunable protection based on data importance. Our evaluation using LLM inference workloads shows that, even under raw HBM bit error rates up to $10^{-3}$, the system retains over 78\% of throughput and 97\% of model accuracy compared with systems equipped with ideal error-free HBM. By treating reliability as a tunable system parameter rather than a fixed hardware constraint, our design opens a new path toward low-cost, high-performance HBM deployment in AI infrastructure.
主题: 硬件架构 (cs.AR)
引用方式: arXiv:2507.02654 [cs.AR]
  (或者 arXiv:2507.02654v1 [cs.AR] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.02654
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Rui Xie [查看电子邮件]
[v1] 星期四, 2025 年 7 月 3 日 14:18:41 UTC (244 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.AR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号