计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月1日
]
标题: ARIG:用于实时对话的自回归交互头生成
标题: ARIG: Autoregressive Interactive Head Generation for Real-time Conversations
摘要: 面对面的交流作为一种常见的活动,推动了交互式头部生成的研究。 一个虚拟代理可以根据另一用户和自身的音频或运动信号,同时具备倾听和说话能力来生成运动反应。 然而,之前的逐片段生成范式或显式的听者/说话者生成器切换方法在未来的信号获取、上下文行为理解和切换平滑性方面存在局限,使得实时性和真实性难以实现。 在本文中,我们提出了一种基于自回归(AR)的逐帧框架称为ARIG,以实现实时生成并提高交互的真实性。 为了实现实时生成,我们将运动预测建模为非向量量化AR过程。 与离散代码本索引预测不同,我们使用扩散过程表示运动分布,在连续空间中实现了更准确的预测。 为了提高交互的真实性,我们强调交互行为理解(IBU)和详细的对话状态理解(CSU)。 在IBU中,基于双轨双模态信号,我们通过双向集成学习总结短距离行为,并对长距离进行上下文理解。 在CSU中,我们使用语音活动信号和IBU的上下文特征来理解实际对话中存在的各种状态(如打断、反馈、暂停等)。 这些作为最终渐进式运动预测的条件。 大量实验验证了我们模型的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.