Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.24045

帮助 | 高级搜索

计算机科学 > 分布式、并行与集群计算

arXiv:2506.24045 (cs)
[提交于 2025年6月30日 ]

标题: Agent.xpu:异构 SoC 上代理 LLM 工作负载的高效调度

标题: Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC

Authors:Xinming Wei, Jiahao Zhang, Haoran Li, Jiayu Chen, Rui Qu, Maoliang Li, Xiang Chen, Guojie Luo
摘要: 代理大型语言模型(LLMs)在个人设备上的普及引入了一类新的工作负载,其特点是目标的二元性。 反应性任务由用户发起,需要立即、低延迟的响应,而主动性任务则在后台运行,并优先考虑吞吐量。 现有的设备端LLM引擎,专为独立推理设计,在消费级异构SoC(具有CPU、集成GPU和NPU)上无法高效管理这些同时发生且相互冲突的请求。 本文介绍了 Agent.xpu,一种用于内存统一的异构SoC上的代理LLM工作负载的高效服务系统。 通过专用的离线分析,Agent.xpu首先构建一个异构执行图,该图融合并分块模型内核,以亲和性引导的方式进行弹性加速器映射,并带有预测性内核注释。 在运行时,其在线调度器实现了细粒度的内核级抢占,以保证反应性任务的响应性。 为了最大化SoC的利用率,它采用空闲感知的内核填充来机会性地附加主动性任务,并通过带宽感知的分发减轻NPU-iGPU的竞争。 在Intel Core Ultra SoC上的评估显示,与最先进的推理引擎相比,Agent.xpu在反应性任务上的延迟降低了 4.6$\times$,并在主动性任务上保持了 1.6$\times$-6.8$\times$的更高吞吐量。
摘要: The proliferation of agentic Large Language Models (LLMs) on personal devices introduces a new class of workloads characterized by a dichotomy of objectives. Reactive tasks, initiated by users, demand immediate, low-latency responses, while proactive tasks operate invisibly and prioritize throughput. Existing on-device LLM engines, designed for isolated inferences, fail to efficiently manage these concurrent and conflicting requests on consumer-grade heterogeneous SoCs with CPU, integrated GPU, and NPU. This paper introduces Agent.xpu, an efficient serving system for agentic LLM workloads on memory-unified heterogeneous SoCs. With dedicated offline profiling, Agent.xpu first constructs a heterogeneous execution graph, which fuses and chunks model kernels for affinity-guided, elastic accelerator mapping with predictive kernel annotation. At runtime, its online scheduler enables fine-grained, kernel-level preemption to guarantee the responsiveness of reactive tasks. To maximize SoC utilization, it adopts slack-aware kernel backfill to opportunistically append proactive tasks, and mitigates NPU-iGPU contention via bandwidth-aware dispatch. Evaluation on an Intel Core Ultra SoC shows that Agent.xpu achieves 4.6$\times$ lower latency for reactive tasks and sustains 1.6$\times$-6.8$\times$ higher throughput for proactive tasks compared to state-of-the-art inference engines.
主题: 分布式、并行与集群计算 (cs.DC) ; 机器学习 (cs.LG)
引用方式: arXiv:2506.24045 [cs.DC]
  (或者 arXiv:2506.24045v1 [cs.DC] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.24045
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Xinming Wei [查看电子邮件]
[v1] 星期一, 2025 年 6 月 30 日 16:50:48 UTC (663 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.DC
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号