计算机科学 > 计算与语言
[提交于 2024年12月29日
]
标题: 生成语言模型中的对抗谈判动态
标题: Adversarial Negotiation Dynamics in Generative Language Models
摘要: 生成式语言模型越来越多地被用于合同起草和改进,从而形成了一个竞争双方部署不同语言模型相互对抗的情景。 这不仅引入了博弈论的挑战,还带来了与人工智能安全性和安全性相关的重要问题,因为对方使用的语言模型可能是未知的。 这些竞争性交互可以被视为对抗性测试平台,在这些平台上,模型实际上被红队攻击以暴露其漏洞,例如生成带有偏见、有害或法律问题的文本。 尽管这些挑战的重要性毋庸置疑,但这些模型在对抗环境中的竞争稳健性和安全性仍知之甚少。 在这项小型研究中,我们通过评估主要开源语言模型在一对一竞赛中的性能和漏洞来解决这个问题,模拟现实世界的合同谈判。 我们进一步探讨了这些对抗性交互如何揭示潜在风险,从而为开发更安全可靠的模型提供信息。 我们的发现有助于扩大人工智能安全领域的研究,为竞争性法律环境中模型选择和优化提供了见解,并为减轻风险提供了可行策略。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.