计算机科学 > 计算与语言
[提交于 2024年12月31日
]
标题: AI中的回声:量化大型语言模型输出中情节多样性的缺失
标题: Echoes in AI: Quantifying Lack of Plot Diversity in LLM Outputs
摘要: 随着大型语言模型(LLMs)的快速发展,LLMs在创意内容构思和生成中的应用日益增多。 一个关键问题浮现:当前的LLMs能否提供足够多样的想法,真正增强集体创造力? 我们对两种最先进的LLMs,GPT-4和LLaMA-3,在故事生成方面的表现进行了研究,并发现 LLM生成的故事通常包含在多次生成中反复出现的情节元素。 为了量化这一现象,我们引入了Sui Generis分数,该分数估计一个情节元素在由同一LLM生成的其他故事情节中出现的可能性有多大。 在100个短故事上进行评估,我们发现LLM生成的故事经常包含在多次生成中频繁重复的独特情节元素,而原始的人类写作故事很少被重新创作,甚至很少被部分重复。 此外,我们的用户评估显示,故事片段之间的Sui Generis分数排名与人类对惊喜程度的判断存在中等程度的相关性,尽管分数计算是完全自动的,不依赖于人类判断。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.