Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.00797

帮助 | 高级搜索

计算机科学 > 硬件架构

arXiv:2507.00797 (cs)
[提交于 2025年7月1日 ]

标题: VEDA:通过基于投票的KV缓存驱逐和数据流灵活加速器实现高效的LLM生成

标题: VEDA: Efficient LLM Generation Through Voting-based KV Cache Eviction and Dataflow-flexible Accelerator

Authors:Zhican Wang, Hongxiang Fan, Haroon Waris, Gang Wang, Zhenyu Li, Jianfei Jiang, Yanan Sun, Guanghui He
摘要: 大型语言模型(LLMs)在自然语言处理任务中表现出色,但由于其对资源的密集需求,在边缘部署中面临着显著的计算和内存挑战。 本工作通过算法-硬件-数据流三重优化来提高LLM推理的效率。 我们提出了一种基于投票的KV缓存淘汰算法,通过自适应识别不重要的kv向量来平衡硬件效率和算法准确性。 从数据流的角度来看,我们引入了一种灵活的产品数据流和一种运行时可重构的PE阵列用于矩阵-向量乘法。 所提出的方法有效处理了不同的维度需求,并解决了序列长度逐步变化的挑战。 此外,还提出了一种元素串行调度方案,用于非线性操作,如softmax和层归一化(layernorm)。 结果表明,延迟显著减少,同时硬件复杂度从O(N)降低到O(1)。 所提出的解决方案实现在一个定制设计的加速器VEDA中,其性能优于现有的硬件平台。 这项研究在资源受限的边缘设备上的LLM推理方面取得了重大进展,促进了实时处理,增强了数据隐私,并实现了模型定制。
摘要: Large Language Models (LLMs) excel in natural language processing tasks but pose significant computational and memory challenges for edge deployment due to their intensive resource demands. This work addresses the efficiency of LLM inference by algorithm-hardware-dataflow tri-optimizations. We propose a novel voting-based KV cache eviction algorithm, balancing hardware efficiency and algorithm accuracy by adaptively identifying unimportant kv vectors. From a dataflow perspective, we introduce a flexible-product dataflow and a runtime reconfigurable PE array for matrix-vector multiplication. The proposed approach effectively handles the diverse dimensional requirements and solves the challenges of incrementally varying sequence lengths. Additionally, an element-serial scheduling scheme is proposed for nonlinear operations, such as softmax and layer normalization (layernorm). Results demonstrate a substantial reduction in latency, accompanied by a significant decrease in hardware complexity, from O(N) to O(1). The proposed solution is realized in a custom-designed accelerator, VEDA, which outperforms existing hardware platforms. This research represents a significant advancement in LLM inference on resource-constrained edge devices, facilitating real-time processing, enhancing data privacy, and enabling model customization.
评论: DAC 2025
主题: 硬件架构 (cs.AR)
引用方式: arXiv:2507.00797 [cs.AR]
  (或者 arXiv:2507.00797v1 [cs.AR] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.00797
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Zhican Wang [查看电子邮件]
[v1] 星期二, 2025 年 7 月 1 日 14:30:31 UTC (885 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.AR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号