电气工程与系统科学 > 音频与语音处理
[提交于 2025年8月7日
]
标题: MOVER:结合多个会议识别系统
标题: MOVER: Combining Multiple Meeting Recognition Systems
摘要: 在本文中,我们提出了会议识别输出投票误差减少(MOVER),一种用于会议识别任务的新型系统组合方法。尽管有结合说话人分离(例如,DOVER)或自动语音识别(ASR)系统(例如,ROVER)输出的方法,MOVER 是第一个可以结合在说话人分离和 ASR 方面都不同的会议识别系统输出的方法。MOVER 通过一个五阶段过程结合具有不同时间间隔和说话人标签的假设,包括说话人对齐、段落分组、词语和时间组合等。在 CHiME-8 DASR 任务和 NOTSOFAR-1 任务的多通道轨道上的实验结果表明,MOVER 可以成功结合多个具有不同说话人分离和识别输出的会议识别系统,在两个任务上相对于最先进系统分别实现了 9.55% 和 8.51% 的相对 tcpWER 改进。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.