计算机科学 > 计算与语言
[提交于 2025年7月14日
]
标题: Absher:评估大型语言模型对沙特方言理解的基准
标题: Absher: A Benchmark for Evaluating Large Language Models Understanding of Saudi Dialects
摘要: 随着大型语言模型(LLMs)在阿拉伯语自然语言处理应用中变得越来越核心,评估它们对地区方言和文化细微差别的理解至关重要,尤其是在像沙特阿拉伯这样语言多样化的环境中。 本文介绍了\texttt{阿布舍尔},一个专门设计用于评估LLMs在主要沙特方言中的表现的综合性基准。 \texttt{阿布舍尔}包含超过18,000道选择题,涵盖六个不同的类别:含义、对错、填空、上下文使用、文化解释和地点识别。 这些问题来源于从沙特阿拉伯各地收集的方言词汇、短语和谚语的精选数据集。 我们评估了几种最先进的LLMs,包括多语言和阿拉伯语专用模型。 我们还提供了它们能力与局限性的详细见解。 我们的结果揭示了显著的性能差距,特别是在需要文化推理或上下文理解的任务中。 我们的研究结果突显了迫切需要进行方言感知训练和文化一致的评估方法,以提高LLMs在现实世界阿拉伯语应用中的表现。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.