计算机科学 > 计算与语言
[提交于 2025年7月16日
]
标题: ILID:印度语言的原生脚本语言识别
标题: ILID: Native Script Language Identification for Indian Languages
摘要: 语言识别任务是自然语言处理中的一个关键基础步骤。 通常它作为许多广泛使用的自然语言处理应用的预处理步骤,例如多语言机器翻译、信息检索、问答和文本摘要。 语言识别的核心挑战在于在嘈杂、简短和混合代码的环境中区分语言。 对于表现出词汇和语音相似性但又有明显差异的多种印度语言来说,这变得更加困难。 许多印度语言使用相同的文字系统,使得该任务更加具有挑战性。 在本文中,我们发布了一个包含23万条句子的数据集,其中包括英语和所有22种官方印度语言,并用语言标识符进行了标记,其中大多数语言的数据是新创建的。 我们还开发并发布了使用机器学习和深度学习最新方法的鲁棒基线模型,这些模型可以促进该领域研究。 我们的基线模型在语言识别任务上与最先进的模型相当。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.