计算机科学 > 计算与语言
[提交于 2024年12月31日
]
标题: 僧伽罗语转写:基于规则和Seq2Seq方法的比较分析
标题: Sinhala Transliteration: A Comparative Analysis Between Rule-based and Seq2Seq Approaches
摘要: 由于便利性和技术素养不足,音译(即用拉丁字母转写本土文字而不是使用本地化工具)在低资源语言如僧伽罗语的背景下非常普遍,这些语言有自己的书写文字。 在本研究中,我们的重点是拉丁化的僧伽罗语音译。 我们提出了两种方法来解决这个问题:我们的基线方法是一种基于规则的方法,然后将其与我们的第二种方法进行比较,我们在第二种方法中将音译问题视为类似于已建立的神经机器翻译(NMT)任务的序列到序列任务。 对于后者,我们提出了一种基于Transformer的编码器-解码器解决方案。 我们观察到,与基于规则的方法相比,基于Transformer的方法能够捕捉许多临时的模式在拉丁化脚本中。 与本文相关的代码库可在GitHub上获取 - https://github.com/kasunw22/Sinhala-Transliterator/
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.