计算机科学 > 计算与语言
[提交于 2025年7月16日
]
标题: 有毒性意识的少样本提示用于低资源Singlish翻译
标题: Toxicity-Aware Few-Shot Prompting for Low-Resource Singlish Translation
摘要: 随着在线交流越来越多地包含代表性不足的语言和口语方言,标准翻译系统往往无法保留本地俚语、混合用语以及有害言论中的文化嵌入标记。 在低资源语言对之间翻译有害内容会带来额外的挑战,这是由于平行数据稀缺以及用于净化攻击性表达的安全过滤器。 在本工作中,我们提出了一种可重复的两阶段毒性保留翻译框架,并在一种混合用语的Singlish安全语料库上进行了演示。 首先,我们进行人工验证的少量提示工程:我们迭代地整理和排序标注者选择的Singlish目标示例,以捕捉细微的俚语、语气和有害性。 其次,我们通过直接翻译和反向翻译的语义相似性对多个大型语言模型进行基准测试,优化模型-提示对。 定量的人工评估证实了我们管道的有效性和效率。 除了提高翻译质量外,我们的框架通过支持文化敏感的监管和在低资源环境中的基准测试,为多文化大型语言模型的安全性做出了贡献。 通过将Singlish作为包容性自然语言处理的试验场,我们强调了在现实世界应用中保留社会语言学细微差别的重要性,例如内容监管和地区平台治理。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.