计算机科学 > 计算与语言
[提交于 2025年1月2日
]
标题: BeliN:一种用于使用上下文特征融合生成孟加拉宗教新闻标题的新语料库
标题: BeliN: A Novel Corpus for Bengali Religious News Headline Generation using Contextual Feature Fusion
摘要: 自动文本摘要,特别是标题生成,对于孟加拉语宗教新闻仍然是一个关键但研究不足的领域。 现有的标题生成方法通常仅依赖文章内容,忽视了诸如情感、类别和方面等重要的上下文特征。 这一限制显著阻碍了它们的有效性和整体性能。 本研究通过引入一个新颖的语料库 BeliN(孟加拉语宗教新闻)——包括来自著名孟加拉国在线报纸的宗教新闻文章,以及 MultiGen——一种基于上下文的多输入特征融合标题生成方法,来解决这一限制。 利用基于变压器的预训练语言模型,如 BanglaT5、mBART、mT5 和 mT0,MultiGen 将额外的上下文特征——包括类别、方面和情感——与新闻内容相结合。 这种融合使模型能够捕捉传统方法常忽略的关键上下文信息。 实验结果表明,与仅使用新闻内容的基线方法相比,MultiGen 表现出优越性,BLEU 得分为 18.61,ROUGE-L 得分为 24.19,而基线方法的得分分别为 16.08 和 23.08。 这些发现强调了在低资源语言中在标题生成中融入上下文特征的重要性。 通过弥合语言和文化差距,这项研究推动了孟加拉语和其他未被充分代表语言的自然语言处理发展。 为了促进可重复性和进一步探索,数据集和实现代码可在 https://github.com/akabircs/BeliN 公开获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.