计算机科学 > 硬件架构
[提交于 2025年7月3日
]
标题: 打破HBM位成本障碍:面向AI推理基础设施的领域专用ECC
标题: Breaking the HBM Bit Cost Barrier: Domain-Specific ECC for AI Inference Infrastructure
摘要: 高性能内存(HBM)为人工智能工作负载提供了卓越的带宽和能效,但其每个比特的高成本,部分是由于严格的芯片内可靠性要求,正成为可扩展部署的日益增长的障碍。 本研究通过消除芯片内ECC并将其所有故障管理转移到内存控制器,探索了一种系统级的成本降低方法。 我们引入了一个领域特定的ECC框架,结合大码字Reed--Solomon~(RS)纠正与轻量级细粒度CRC检测,差分奇偶校验更新以减轻写入放大效应,并根据数据重要性进行可调保护。 我们使用大型语言模型推理工作负载进行评估,结果显示,即使在原始HBM比特错误率高达$10^{-3}$的情况下,与配备理想无错误HBM的系统相比,该系统仍保留了超过78%的吞吐量和97%的模型准确率。 通过将可靠性视为可调的系统参数而非固定的硬件约束,我们的设计为人工智能基础设施中低成本、高性能HBM的部署开辟了一条新路径。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.