计算机科学 > 人工智能
[提交于 2024年6月5日
]
标题: 好的、坏的和绿巨人般的GPT:分析大型语言模型在合作和讨价还价游戏中的情感决策
标题: The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games
摘要: 行为研究实验是社会建模和理解人类互动的重要组成部分。 在实践中,许多行为实验由于人类用户研究中社会互动和合作的复杂性,面临内部和外部效度、可重复性和社会偏见等挑战。 大型语言模型(LLMs)的最新进展为研究人员提供了模拟人类行为的新有前景的工具。 然而,现有的基于LLM的模拟在未经证实的假设下运行,即LLM代理的行为与人类相似,并且忽略了人类决策中的一个关键因素:情绪。 在本文中,我们介绍了一种新的方法和框架,用于研究LLM的决策过程以及它们在情绪状态下的与人类行为的一致性。 在两个不同类别的行为博弈理论中的四种游戏上对GPT-3.5和GPT-4进行的实验表明,情绪深刻影响LLM的性能,导致更优策略的发展。 虽然GPT-3.5的行为反应与人类参与者之间存在强烈的对应关系,特别是在谈判游戏中尤为明显, GPT-4表现出一致的行为,为了理性决策而忽略诱导的情绪。 令人惊讶的是,情绪提示,特别是“愤怒”情绪,可以破坏GPT-4的“超人类”一致性,类似于人类的情绪反应。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.