计算机科学 > 分布式、并行与集群计算
[提交于 2025年1月10日
]
标题: 基于机器学习的三对角分块方法在GPU实现中的最优CUDA流数量
标题: ML-Based Optimum Number of CUDA Streams for the GPU Implementation of the Tridiagonal Partition Method
摘要: 本文提出了一种启发式方法,通过使用现代面向人工智能的方法常用的工具,来找到最优的CUDA流数量,并应用于并行划分算法。 构建了GPU实现划分方法的时间复杂度模型。 进一步提出了在多个CUDA流上执行的划分算法的细化时间复杂度模型。 进行了不同SLAE大小的计算实验,并通过实验方法找到了每个情况下的最优CUDA流数量。 基于收集的数据,使用回归分析建立了非主导GPU操作时间总和的模型(这些操作参与流重叠)。 创建了一个与CUDA流创建相关的开销时间的拟合非线性模型。 对所有构建的模型进行了统计分析。 制定了寻找最优CUDA流数量的算法。 使用该算法以及上述两个模型,做出了最优CUDA流数量的预测。 将预测值与实际数据进行比较,该算法被认为是可以接受的。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.