计算机科学 > 人机交互
[提交于 2025年1月3日
]
标题: 多智能体对话在线学习用于自适应LLM响应识别
标题: Multi-Agent Conversational Online Learning for Adaptive LLM Response Identification
摘要: 大型语言模型(LLMs)显著的生成能力激发了在不同应用中自动生成响应的日益增长的兴趣。 鉴于用户偏好的动态性以及LLM响应性能的不确定性,设计高效的在线学习算法以识别最佳LLM响应(即高质量且符合用户偏好的响应)至关重要。 现有的大多数在线算法采用集中式方法,并未能利用显式的用户偏好来更高效和个性化地识别LLM响应。 相反,本文介绍了\textit{MACO} (\underline{M}ulti-\underline{A}gent\underline{C}onversational\underline{O}nline Learning for Adaptive LLM Response Identification): 1) 通过多个本地代理(如智能手机)加速在线LLM响应识别过程,同时增强数据隐私;2) 提出一种新颖的对话机制,以自适应的方式进行对话以征求用户偏好(例如,生成响应中更喜欢幽默的语气而非严肃的语气),从而最小化偏好估计的不确定性。 我们的理论分析表明,\cadi 是关于累积遗憾近似最优的。 此外,\cadi 通过消除先前工作中存在的传统、计算密集型的“G最优设计”来降低通信成本和计算复杂度。 大量实验使用开放的LLM \textit{Llama},结合来自Google和OpenAI的两种不同的嵌入模型进行文本向量表示,表明 \cadi 在在线LLM响应识别方面显著优于当前最先进水平。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.