Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.00045

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2501.00045 (cs)
[提交于 2024年12月27日 ]

标题: 机器翻译迁移学习的跨语言考察

标题: Cross-Linguistic Examination of Machine Translation Transfer Learning

Authors:Saughmon Boujkian
摘要: 本研究通过评估五种不同的语言对,调查了迁移学习在多种不同语言家族中的机器翻译有效性。 利用高资源语言上的预训练模型,这些模型在低资源语言上进行了微调,考察了超参数(如学习率、批量大小、训练轮数和权重衰减)的变化。 研究涵盖了来自不同语言背景的语言对:闪米特语系(现代标准阿拉伯语 - 黎凡特阿拉伯语)、班图语系(豪萨语 - 祖鲁语)、罗曼语系(西班牙语 - 加泰罗尼亚语)、斯拉夫语系(斯洛伐克语 - 马其顿语)以及语言孤立现象(东 Armenian - 西 Armenian)。 结果表明,迁移学习在不同语言家族中均有效,尽管超参数的影响有所不同。通常而言,适中的批量大小(例如 32)更为有效,而非常高的学习率可能会破坏模型的训练。 该研究强调了迁移学习在多语言环境中的普遍性,并建议一致的超参数设置可以简化并提高多语言模型训练的效率。
摘要: This study investigates the effectiveness of transfer learning in machine translation across diverse linguistic families by evaluating five distinct language pairs. Leveraging pre-trained models on high-resource languages, these models were fine-tuned on low-resource languages, examining variations in hyperparameters such as learning rate, batch size, number of epochs, and weight decay. The research encompasses language pairs from different linguistic backgrounds: Semitic (Modern Standard Arabic - Levantine Arabic), Bantu (Hausa - Zulu), Romance (Spanish - Catalan), Slavic (Slovakian - Macedonian), and language isolates (Eastern Armenian - Western Armenian). Results demonstrate that transfer learning is effective across different language families, although the impact of hyperparameters varies. A moderate batch size (e.g., 32) is generally more effective, while very high learning rates can disrupt model training. The study highlights the universality of transfer learning in multilingual contexts and suggests that consistent hyperparameter settings can simplify and enhance the efficiency of multilingual model training.
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG)
引用方式: arXiv:2501.00045 [cs.CL]
  (或者 arXiv:2501.00045v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.00045
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Saughmon Boujkian [查看电子邮件]
[v1] 星期五, 2024 年 12 月 27 日 16:34:56 UTC (727 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号