计算机科学 > 多智能体系统
[提交于 2025年7月1日
]
标题: Twill:在异构移动边缘平台上的复合AI系统调度
标题: Twill: Scheduling Compound AI Systems on Heterogeneous Mobile Edge Platforms
摘要: 复合人工智能(cAI)系统通过连接多个人工智能模型来解决复杂问题。 cAI系统通常由深度神经网络(DNNs)、转换器和大型语言模型(LLMs)组成,表现出高度的计算多样性和动态工作负载变化。 在移动边缘平台部署cAI服务在调度并发的DNN-转换器推理任务方面提出了重大挑战,这些任务以未知的顺序动态到达。 现有的移动边缘AI推理策略管理多DNN或仅转换器的工作负载,依赖于设计时的性能分析,无法处理cAI系统所需的DNN和转换器的并发推理。 在本工作中,我们解决了在异构移动边缘平台上调度cAI系统的挑战。 我们提出了Twill,一个运行时框架,通过任务亲和力感知的集群映射和迁移、优先级感知的任务冻结/解冻以及DVFS,在遵守功耗预算的同时最小化推理延迟,以处理cAI工作负载的并发推理请求。 我们在Nvidia Jetson Orin NX平台上实现了并部署了我们的Twill框架。 我们在当代DNN和LLMs上对Twill进行了评估,与最先进的边缘AI推理技术相比,平均推理延迟降低了54%,同时遵守功耗预算。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.