Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2406.03299

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2406.03299 (cs)
[提交于 2024年6月5日 ]

标题: 好的、坏的和绿巨人般的GPT:分析大型语言模型在合作和讨价还价游戏中的情感决策

标题: The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games

Authors:Mikhail Mozikov, Nikita Severin, Valeria Bodishtianu, Maria Glushanina, Mikhail Baklashkin, Andrey V. Savchenko, Ilya Makarov
摘要: 行为研究实验是社会建模和理解人类互动的重要组成部分。 在实践中,许多行为实验由于人类用户研究中社会互动和合作的复杂性,面临内部和外部效度、可重复性和社会偏见等挑战。 大型语言模型(LLMs)的最新进展为研究人员提供了模拟人类行为的新有前景的工具。 然而,现有的基于LLM的模拟在未经证实的假设下运行,即LLM代理的行为与人类相似,并且忽略了人类决策中的一个关键因素:情绪。 在本文中,我们介绍了一种新的方法和框架,用于研究LLM的决策过程以及它们在情绪状态下的与人类行为的一致性。 在两个不同类别的行为博弈理论中的四种游戏上对GPT-3.5和GPT-4进行的实验表明,情绪深刻影响LLM的性能,导致更优策略的发展。 虽然GPT-3.5的行为反应与人类参与者之间存在强烈的对应关系,特别是在谈判游戏中尤为明显, GPT-4表现出一致的行为,为了理性决策而忽略诱导的情绪。 令人惊讶的是,情绪提示,特别是“愤怒”情绪,可以破坏GPT-4的“超人类”一致性,类似于人类的情绪反应。
摘要: Behavior study experiments are an important part of society modeling and understanding human interactions. In practice, many behavioral experiments encounter challenges related to internal and external validity, reproducibility, and social bias due to the complexity of social interactions and cooperation in human user studies. Recent advances in Large Language Models (LLMs) have provided researchers with a new promising tool for the simulation of human behavior. However, existing LLM-based simulations operate under the unproven hypothesis that LLM agents behave similarly to humans as well as ignore a crucial factor in human decision-making: emotions. In this paper, we introduce a novel methodology and the framework to study both, the decision-making of LLMs and their alignment with human behavior under emotional states. Experiments with GPT-3.5 and GPT-4 on four games from two different classes of behavioral game theory showed that emotions profoundly impact the performance of LLMs, leading to the development of more optimal strategies. While there is a strong alignment between the behavioral responses of GPT-3.5 and human participants, particularly evident in bargaining games, GPT-4 exhibits consistent behavior, ignoring induced emotions for rationality decisions. Surprisingly, emotional prompting, particularly with `anger' emotion, can disrupt the "superhuman" alignment of GPT-4, resembling human emotional responses.
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL)
ACM 类: I.2.7; J.4
引用方式: arXiv:2406.03299 [cs.AI]
  (或者 arXiv:2406.03299v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2406.03299
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Ilya Makarov [查看电子邮件]
[v1] 星期三, 2024 年 6 月 5 日 14:08:54 UTC (2,837 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-06
切换浏览方式为:
cs
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号