Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2509.03940

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2509.03940 (cs)
[提交于 2025年9月4日 ]

标题: VoxRole:一种用于评估基于语音的角色扮演代理的全面基准

标题: VoxRole: A Comprehensive Benchmark for Evaluating Speech-Based Role-Playing Agents

Authors:Weihao Wu, Liang Cao, Xinyu Wu, Zhiwei Lin, Rui Niu, Jingbei Li, Zhiyong Wu
摘要: 最近在大型语言模型(LLMs)方面的重大进展极大地推动了角色扮演对话代理(RPCAs)的发展。 这些系统旨在通过一致的角色采用创造沉浸式的用户体验。 然而,当前的RPCA研究面临双重限制。 首先,现有工作主要关注文本模态,完全忽略了语音中关键的副语言特征,包括语调、韵律和节奏,这些对于传达角色情感和塑造生动的身份至关重要。 其次,基于语音的角色扮演领域长期缺乏标准化的评估基准。 大多数当前的口语对话数据集仅针对基本能力评估,角色档案描述薄弱或定义不明确。 因此,它们无法有效量化模型在核心能力如长期角色一致性方面的性能。 为解决这一关键差距,我们引入了 VoxRole,第一个专门设计用于评估基于语音的RPCAs的全面基准。 该基准包含13335轮对话,总计65.6小时的语音,来自261部电影中的1228个独特角色。 为了构建这个资源,我们提出了一种新颖的两阶段自动化流程,首先将电影音频与剧本对齐,然后使用一个 LLM系统地为每个角色构建多维档案。 利用VoxRole,我们对当代口语对话模型进行了多维评估,揭示了它们在保持角色一致性方面的各自优势和局限性。
摘要: Recent significant advancements in Large Language Models (LLMs) have greatly propelled the development of Role-Playing Conversational Agents (RPCAs). These systems aim to create immersive user experiences through consistent persona adoption. However, current RPCA research faces dual limitations. First, existing work predominantly focuses on the textual modality, entirely overlooking critical paralinguistic features including intonation, prosody, and rhythm in speech, which are essential for conveying character emotions and shaping vivid identities. Second, the speech-based role-playing domain suffers from a long-standing lack of standardized evaluation benchmarks. Most current spoken dialogue datasets target only fundamental capability assessments, featuring thinly sketched or ill-defined character profiles. Consequently, they fail to effectively quantify model performance on core competencies like long-term persona consistency. To address this critical gap, we introduce VoxRole, the first comprehensive benchmark specifically designed for the evaluation of speech-based RPCAs. The benchmark comprises 13335 multi-turn dialogues, totaling 65.6 hours of speech from 1228 unique characters across 261 movies. To construct this resource, we propose a novel two-stage automated pipeline that first aligns movie audio with scripts and subsequently employs an LLM to systematically build multi-dimensional profiles for each character. Leveraging VoxRole, we conduct a multi-dimensional evaluation of contemporary spoken dialogue models, revealing crucial insights into their respective strengths and limitations in maintaining persona consistency.
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI); 声音 (cs.SD)
引用方式: arXiv:2509.03940 [cs.CL]
  (或者 arXiv:2509.03940v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2509.03940
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Weihao Wu [查看电子邮件]
[v1] 星期四, 2025 年 9 月 4 日 07:03:46 UTC (1,109 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.SD
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-09
切换浏览方式为:
cs
cs.AI
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号