计算机科学 > 计算与语言
[提交于 2025年10月19日
]
标题: 谁在询问? 基于角色的问答模拟用于对话式人工智能评估
标题: Who's Asking? Simulating Role-Based Questions for Conversational AI Evaluation
摘要: 语言模型用户经常在他们的提问中嵌入个人和社会背景。提问者的角色——隐含在问题的表述方式中——对适当的回应有特定的需求。然而,大多数评估虽然捕捉了模型的回答能力,但往往忽略了提问者是谁。这种差距在像阿片类药物使用障碍(OUD)这样的污名化领域尤其关键,因为在这些领域中,考虑用户背景对于提供易于获取、无污名化的回答至关重要。我们提出了CoRUS(COmmunity-driven Roles for User-centric Question Simulation),一个用于模拟基于角色问题的框架。结合角色理论和一个在线OUD康复社区(r/OpiatesRecovery)的帖子,我们首先构建了一个提问者角色的分类学——患者、护理人员、从业者。接下来,我们利用它来模拟15,321个嵌入每个角色目标、行为和经验的问题。我们的评估显示,这些问题既高度可信,又与现实世界的数据相当。当用于评估五个大型语言模型时,对于相同的问题但不同的角色,我们发现系统性差异:弱势角色,如患者和护理人员,在与从业者相比时,会引发更多支持性的回应(+17%)和减少的知识内容(-19%)。我们的工作展示了隐式地传达用户角色如何影响模型响应,并为对话式人工智能的角色导向评估提供了一种方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.