ChipChat: Low-Latency Cascaded Conversational Agent in MLX

Likhomanenko, Tatiana; Carlson, Luke; Bai, Richard He; Gu, Zijin; Tran, Han; Aldeneh, Zakaria; Zhang, Yizhe; Zhang, Ruixiang; Zheng, Huangjie; Jaitly, Navdeep

电气工程与系统科学 > 音频与语音处理

arXiv:2509.00078 (eess)

[提交于 2025年8月26日 ]

标题： ChipChat：MLX中的低延迟级联对话代理

标题： ChipChat: Low-Latency Cascaded Conversational Agent in MLX

Authors:Tatiana Likhomanenko, Luke Carlson, Richard He Bai, Zijin Gu, Han Tran, Zakaria Aldeneh, Yizhe Zhang, Ruixiang Zhang, Huangjie Zheng, Navdeep Jaitly

摘要：大型语言模型（LLMs）的出现改变了语音对话系统，但实时设备端语音代理的最佳架构仍然是一个开放问题。尽管端到端方法在理论上具有优势，但级联系统（CSs）在语言理解任务中仍然表现更好，尽管受到顺序处理延迟的限制。在本工作中，我们引入了ChipChat，这是一种通过架构创新和流优化克服传统瓶颈的低延迟CS。我们的系统集成了流式处理（a）对话语音识别与专家混合，（b）状态-动作增强的LLM，（c）文本到语音合成，（d）神经声码器，以及（e）说话人建模。使用MLX实现，ChipChat在Mac Studio上实现了亚秒级响应延迟，而无需专用GPU，并通过完全的设备端处理保护用户隐私。我们的研究表明，经过战略重新设计的CS可以克服其历史上的延迟限制，为基于语音的实用AI代理提供了一条有前景的前进路径。

摘要： The emergence of large language models (LLMs) has transformed spoken dialog systems, yet the optimal architecture for real-time on-device voice agents remains an open question. While end-to-end approaches promise theoretical advantages, cascaded systems (CSs) continue to outperform them in language understanding tasks, despite being constrained by sequential processing latency. In this work, we introduce ChipChat, a novel low-latency CS that overcomes traditional bottlenecks through architectural innovations and streaming optimizations. Our system integrates streaming (a) conversational speech recognition with mixture-of-experts, (b) state-action augmented LLM, (c) text-to-speech synthesis, (d) neural vocoder, and (e) speaker modeling. Implemented using MLX, ChipChat achieves sub-second response latency on a Mac Studio without dedicated GPUs, while preserving user privacy through complete on-device processing. Our work shows that strategically redesigned CSs can overcome their historical latency limitations, offering a promising path forward for practical voice-based AI agents.

评论：	ASRU 2025
主题：	音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL); 机器学习 (cs.LG); 声音 (cs.SD)
引用方式：	arXiv:2509.00078 [eess.AS]
	(或者 arXiv:2509.00078v1 [eess.AS] 对于此版本)
	https://doi.org/10.48550/arXiv.2509.00078

提交历史

来自： Tatiana Likhomanenko [查看电子邮件]
[v1] 星期二， 2025 年 8 月 26 日 20:40:24 UTC (730 KB)

电气工程与系统科学 > 音频与语音处理

标题： ChipChat：MLX中的低延迟级联对话代理

标题： ChipChat: Low-Latency Cascaded Conversational Agent in MLX

提交历史

获取论文：

参考文献与引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

电气工程与系统科学 > 音频与语音处理

标题： ChipChat：MLX中的低延迟级联对话代理 显示英文标题

标题： ChipChat: Low-Latency Cascaded Conversational Agent in MLX

提交历史

获取论文：

参考文献与引用

BibTeX 格式的引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

标题： ChipChat：MLX中的低延迟级联对话代理