计算机科学 > 计算与语言
[提交于 2025年7月16日
(v1)
,最后修订 2025年7月31日 (此版本, v2)]
标题: ILID:印度语言的原生脚本语言识别
标题: ILID: Native Script Language Identification for Indian Languages
摘要: 语言识别任务是自然语言处理中的关键基础步骤。 通常,它作为广泛使用的自然语言处理应用的预处理步骤,例如多语言机器翻译、信息检索、问答和文本摘要。 语言识别的核心挑战在于在嘈杂、简短和代码混合环境中区分语言。 对于具有词汇和语音相似性但存在显著差异的多样化印度语言来说,这变得更加困难。 许多印度语言使用相同的文字,使该任务更加具有挑战性。 考虑到所有这些挑战,我们开发并发布了一个包含250,000个句子的数据集,其中包括23种语言,包括英语和所有22种官方印度语言,并用其语言标识符进行标记,其中大多数语言的数据都是新创建的。 我们还开发并发布了使用机器学习中最先进的方法以及微调预训练转换器模型的基线模型。 我们的模型在语言识别任务中优于最先进的预训练转换器模型。 数据集和代码可在 https://yashingle-ai.github.io/ILID/ 和 Huggingface 开源库中获得。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.