计算机科学 > 密码学与安全
[提交于 2025年1月3日
]
标题: 重新路由 LLM 路由器
标题: Rerouting LLM Routers
摘要: LLM路由器旨在通过分类查询并将它们路由到更便宜或更昂贵的LLM来平衡生成的质量和成本,具体取决于查询的复杂性。 路由器代表我们所谓的LLM控制平面的一种类型:协调使用一个或多个LLM的系统。 在本文中,我们研究了路由器的对抗鲁棒性。 我们首先将LLM控制平面完整性定义为AI安全中的一个独立问题,即LLM编排对对抗输入的鲁棒性。 接下来,我们证明攻击者可以生成我们称之为“混淆工具”的与查询无关的标记序列,当这些序列被添加到任何查询中时,会导致LLM路由器将查询发送到一个强大的LLM。 我们的定量评估显示,这种攻击在针对各种开源和商业路由器的白盒和黑盒设置中都取得了成功,并且混淆查询不会影响LLM响应的质量。 最后,我们证明了工具可以在保持低困惑度的同时有效,因此基于困惑度的过滤不是一种有效的防御措施。 最后,我们研究了其他防御方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.