计算机科学 > 硬件架构
[提交于 2025年7月16日
]
标题: 用长上下文长度表征状态空间模型(SSM)和SSM-Transformer混合语言模型的性能
标题: Characterizing State Space Model (SSM) and SSM-Transformer Hybrid Language Model Performance with Long Context Length
摘要: 机器智能在本地设备上处理连续、长上下文输入的需求正在迅速增长。 然而,传统Transformer架构的二次复杂度和内存需求使其在这些任务中效率低下且通常不可用。 这促使人们转向新的架构,如状态空间模型(SSMs)和混合模型,这些模型有望实现近线性扩展。 尽管当前大多数研究集中在这些模型的准确性和理论吞吐量上,但在实际消费级硬件上的系统性能表征对于指导系统级优化和解锁新应用至关重要。 为解决这一差距,我们提出了一个全面的比较基准测试,专门针对消费级和嵌入式GPU上的长上下文推理,对精心选择的Transformer、SSM和混合模型进行了评估。 我们的分析表明, SSMs不仅可行,而且在此领域表现更优,能够在24GB消费级GPU上处理长达220K个标记的序列,大约比相应的Transformer长4倍。 虽然Transformer在短序列上可能快达1.8倍,但SSMs在非常长的上下文(约57K个标记)中表现出显著的性能反转,快达4倍。 我们的操作级别分析表明,定制的、硬件感知的SSM内核主导了推理运行时间,在边缘平台上的延迟占比超过55%,表明它们是未来硬件加速的主要目标。 我们还提供了详细的、特定于设备的表征结果,以指导边缘系统的协同设计。 为了促进进一步的研究,我们将开源我们的表征框架。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.