计算机科学 > 计算与语言
[提交于 2025年7月13日
]
标题: MCEval:一种用于LLMs公平多语言文化评估的动态框架
标题: MCEval: A Dynamic Framework for Fair Multilingual Cultural Evaluation of LLMs
摘要: 大型语言模型表现出文化偏见和有限的跨文化理解能力,特别是在服务多元化的全球用户群体时。 我们提出了MCEval,一种新颖的多语言评估框架,该框架采用动态文化问题构建,并通过反事实改写和混杂因素改写实现因果分析。 我们的全面评估涵盖了13种文化和13种语言,系统地评估了不同语言场景下的文化意识和文化偏见。 该框架提供了39,897个文化意识实例和17,940个文化偏见实例。 实验结果揭示了不同语言场景下的性能差异,表明最佳文化表现不仅与训练数据分布有关,还与语言与文化的匹配度有关。 评估结果还暴露了公平性问题,其中在英语场景中表现成功的方案在其他场景中会造成显著劣势。 MCEval是第一个全面的多语言文化评估框架,为深入理解LLMs的文化理解提供了更深层次的见解。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.