计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月1日
]
标题: 提示代理:一种用于自动提示语发音识别的协作多代理系统
标题: Cued-Agent: A Collaborative Multi-Agent System for Automatic Cued Speech Recognition
摘要: 提示语音(CS)是一种视觉交流系统,结合唇读和手部编码,以帮助听力障碍者进行交流。 自动提示语音识别(ACSR)旨在通过人工智能驱动的方法将提示语音的手势和嘴唇动作转换为文本。 传统上,手部和嘴唇动作之间的时序异步性需要设计复杂的模块以促进有效的多模态融合。 然而,由于数据可用性有限,当前方法在充分训练这些融合机制方面表现出不足,导致性能不佳。 最近,多智能体系统在处理数据有限的复杂任务方面显示出有前景的能力。 为此,我们提出了第一个用于ACSR的协作多智能体系统,命名为Cued-Agent。 它集成了四个专业子智能体:基于多模态大语言模型的手部识别智能体,采用关键帧筛选和CS专家提示策略来解码手部动作;基于预训练Transformer的唇部识别智能体,从输入视频中提取唇部特征;手部提示解码智能体,在推理过程中以无训练的方式动态地将手部提示与唇部特征相结合;自我纠正的音素到单词智能体,首次通过语义精炼实现从音素序列到自然语言句子的后处理和端到端转换。 为了支持这项研究,我们通过从八位听力障碍者那里收集数据来扩展现有的普通话CS数据集,建立了包含十四名受试者的混合数据集。 大量实验表明,与最先进的方法相比,我们的Cued-Agent在正常和听力障碍场景下表现优异。 实现代码可在 https://github.com/DennisHgj/Cued-Agent 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.