计算机科学 > 分布式、并行与集群计算
[提交于 2025年6月27日
]
标题: MCFuser:高性能和快速融合的内存绑定计算密集型操作符
标题: MCFuser: High-Performance and Rapid Fusion of Memory-Bound Compute-Intensive Operators
摘要: 操作符融合是一种关键的技术,用于提高数据局部性并缓解GPU内存带宽压力,但由于计算吞吐量饱和,通常无法扩展到多个计算密集型操作符的融合。 然而,张量维度大小的动态性可能导致这些操作符变为内存受限,从而需要生成融合内核,这一任务受到融合策略搜索空间有限、冗余内存访问和长时间调优的阻碍,导致性能不佳和部署效率低下。 我们引入了MCFuser,这是一个开创性的框架,旨在通过为所谓的内存受限计算密集型(MBCI)操作符链生成高性能融合内核来克服这些障碍。 利用高级分块表达式来界定一个全面的搜索空间,并结合有向无环图(DAG)分析以消除冗余内存访问,MCFuser简化了内核优化。 通过实施修剪搜索空间的指导方针,并结合分析性能模型与启发式搜索,MCFuser不仅显著加速了调优过程,还表现出卓越的性能。 在NVIDIA A100和RTX3080 GPU上与领先的编译器Ansor进行基准测试,MCFuser在内核性能方面实现了高达5.9倍的加速,并在减少调优时间超过70倍的同时超越了其他基线,展示了其敏捷性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.