Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.12442

帮助 | 高级搜索

计算机科学 > 硬件架构

arXiv:2507.12442 (cs)
[提交于 2025年7月16日 ]

标题: 用长上下文长度表征状态空间模型(SSM)和SSM-Transformer混合语言模型的性能

标题: Characterizing State Space Model (SSM) and SSM-Transformer Hybrid Language Model Performance with Long Context Length

Authors:Saptarshi Mitra, Rachid Karami, Haocheng Xu, Sitao Huang, Hyoukjun Kwon
摘要: 机器智能在本地设备上处理连续、长上下文输入的需求正在迅速增长。 然而,传统Transformer架构的二次复杂度和内存需求使其在这些任务中效率低下且通常不可用。 这促使人们转向新的架构,如状态空间模型(SSMs)和混合模型,这些模型有望实现近线性扩展。 尽管当前大多数研究集中在这些模型的准确性和理论吞吐量上,但在实际消费级硬件上的系统性能表征对于指导系统级优化和解锁新应用至关重要。 为解决这一差距,我们提出了一个全面的比较基准测试,专门针对消费级和嵌入式GPU上的长上下文推理,对精心选择的Transformer、SSM和混合模型进行了评估。 我们的分析表明, SSMs不仅可行,而且在此领域表现更优,能够在24GB消费级GPU上处理长达220K个标记的序列,大约比相应的Transformer长4倍。 虽然Transformer在短序列上可能快达1.8倍,但SSMs在非常长的上下文(约57K个标记)中表现出显著的性能反转,快达4倍。 我们的操作级别分析表明,定制的、硬件感知的SSM内核主导了推理运行时间,在边缘平台上的延迟占比超过55%,表明它们是未来硬件加速的主要目标。 我们还提供了详细的、特定于设备的表征结果,以指导边缘系统的协同设计。 为了促进进一步的研究,我们将开源我们的表征框架。
摘要: The demand for machine intelligence capable of processing continuous, long-context inputs on local devices is growing rapidly. However, the quadratic complexity and memory requirements of traditional Transformer architectures make them inefficient and often unusable for these tasks. This has spurred a paradigm shift towards new architectures like State Space Models (SSMs) and hybrids, which promise near-linear scaling. While most current research focuses on the accuracy and theoretical throughput of these models, a systematic performance characterization on practical consumer hardware is critically needed to guide system-level optimization and unlock new applications. To address this gap, we present a comprehensive, comparative benchmarking of carefully selected Transformer, SSM, and hybrid models specifically for long-context inference on consumer and embedded GPUs. Our analysis reveals that SSMs are not only viable but superior for this domain, capable of processing sequences up to 220K tokens on a 24GB consumer GPU-approximately 4x longer than comparable Transformers. While Transformers may be up to 1.8x faster at short sequences, SSMs demonstrate a dramatic performance inversion, becoming up to 4x faster at very long contexts (~57K tokens). Our operator-level analysis reveals that custom, hardware-aware SSM kernels dominate the inference runtime, accounting for over 55% of latency on edge platforms, identifying them as a primary target for future hardware acceleration. We also provide detailed, device-specific characterization results to guide system co-design for the edge. To foster further research, we will open-source our characterization framework.
评论: 12页,7图
主题: 硬件架构 (cs.AR) ; 人工智能 (cs.AI); 机器学习 (cs.LG); 系统与控制 (eess.SY)
引用方式: arXiv:2507.12442 [cs.AR]
  (或者 arXiv:2507.12442v1 [cs.AR] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.12442
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Saptarshi Mitra [查看电子邮件]
[v1] 星期三, 2025 年 7 月 16 日 17:28:40 UTC (9,235 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.AR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.AI
cs.LG
cs.SY
eess
eess.SY

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号