计算机科学 > 人机交互
[提交于 2022年12月6日
]
标题: SignNet:使用度量嵌入学习的单通道签名生成
标题: SignNet: Single Channel Sign Generation using Metric Embedded Learning
摘要: 一个真正的解释代理不仅能够理解手语并翻译成文本,还能理解文本并翻译成手语。 到目前为止,大多数人工智能在手语翻译方面的工作主要集中在从手语翻译成文本。 为了实现这一目标,我们提出了一种文本到手语的翻译模型 SignNet,它利用了视觉手语的相似性(和差异性)概念进行翻译。 所提出的模块只是涉及文本到手语(T2S)以及手语到文本(S2T)的双任务过程的一部分。 我们目前将 SignNet 实现为单通道架构,以便 T2S 任务的输出可以在连续的双学习框架中输入到 S2T 中。 所谓单通道,我们指的是单一模态,即身体姿态关节。 在这项工作中,我们介绍了 SignNet,这是一个使用新型度量嵌入学习过程的 T2S 任务,以保留手语嵌入之间的距离相对于它们的差异性。 我们还描述了如何选择手语的正例和负例进行相似性测试。 从我们的分析中,我们观察到基于度量嵌入学习的模型在使用 BLEU 分数评估时,明显优于其他使用传统损失的模型。 在词素到姿态的任务中,SignNet 的表现与其最先进的(SoTA)对手相当,并且在文本到姿态的任务中表现更好,在测试流行的 RWTH PHOENIX-Weather-2014T 基准数据集时,BLEU 1 - BLEU 4 分数显示出显著的提升(BLEU 1:31->39;约26%的提升,BLEU 4:10.43->11.84;约14%的提升)。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.