计算机科学 > 计算与语言
[提交于 2025年9月4日
]
标题: VoxRole:一种用于评估基于语音的角色扮演代理的全面基准
标题: VoxRole: A Comprehensive Benchmark for Evaluating Speech-Based Role-Playing Agents
摘要: 最近在大型语言模型(LLMs)方面的重大进展极大地推动了角色扮演对话代理(RPCAs)的发展。 这些系统旨在通过一致的角色采用创造沉浸式的用户体验。 然而,当前的RPCA研究面临双重限制。 首先,现有工作主要关注文本模态,完全忽略了语音中关键的副语言特征,包括语调、韵律和节奏,这些对于传达角色情感和塑造生动的身份至关重要。 其次,基于语音的角色扮演领域长期缺乏标准化的评估基准。 大多数当前的口语对话数据集仅针对基本能力评估,角色档案描述薄弱或定义不明确。 因此,它们无法有效量化模型在核心能力如长期角色一致性方面的性能。 为解决这一关键差距,我们引入了 VoxRole,第一个专门设计用于评估基于语音的RPCAs的全面基准。 该基准包含13335轮对话,总计65.6小时的语音,来自261部电影中的1228个独特角色。 为了构建这个资源,我们提出了一种新颖的两阶段自动化流程,首先将电影音频与剧本对齐,然后使用一个 LLM系统地为每个角色构建多维档案。 利用VoxRole,我们对当代口语对话模型进行了多维评估,揭示了它们在保持角色一致性方面的各自优势和局限性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.