计算机科学 > 机器学习
[提交于 2025年8月26日
]
标题: APT-LLM:利用任意精度张量核心计算加速大模型
标题: APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Acceleration
摘要: 大型语言模型(LLMs)已经革新了人工智能应用,但其巨大的计算需求严重限制了部署和实时性能。量化方法可以帮助降低计算成本,然而,在GPU上实现与超低比特量化LLM相关的极端效率仍面临挑战。这主要是由于GPU Tensor Core支持有限、内存管理效率低下以及内核优化不够灵活。为解决这些挑战,我们提出了一种针对任意精度LLM的全面加速方案,即APT-LLM。首先,我们引入了一种新的数据格式,双极性INT,它允许与带符号INT进行高效且无损的转换,同时更有利于并行计算。我们还开发了一种矩阵乘法(MatMul)方法,通过在位级别拆解和重新组装矩阵来实现任意精度。该方法提供了灵活的精度并优化了GPU Tensor Core的利用率。此外,我们提出了一种专注于数据恢复的内存管理系统,战略性地使用快速共享内存以显著提高内核执行速度并减少内存访问延迟。最后,我们开发了一种内核映射方法,可动态选择不同矩阵大小的最优可配置超参数,从而在不同的LLM架构和精度设置下实现最佳性能。在LLM推理中,APT-LLM相比FP16基线实现了最高3.99$\times$的加速,并在RTX 3090上相比NVIDIA CUTLASS INT4加速实现了最高2.16$\times$的加速。在RTX 4090和H800上,APT-LLM相比FP16实现了最高2.44$\times$的加速,并相比CUTLASS整数基线实现了最高1.65$\times$的加速。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.