计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: 高交互:基于分层场景感知的全身人-物-场景交互生成
标题: HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception
摘要: 在计算机图形学和动画中,生成高保真的全身人体与动态物体及静态场景的交互仍然是一项关键挑战。 现有用于人体-物体交互的方法通常忽略场景上下文,导致不合理的穿透现象,而人体-场景交互方法则难以协调精细操作与远距离导航。 为了解决这些局限性,我们提出了HOSIG,这是一种新颖的框架,通过分层场景感知来合成全身交互。 我们的方法将任务分解为三个关键组件:1)一个场景感知的抓取姿态生成器,通过整合局部几何约束确保无碰撞的全身姿势和精确的手-物体接触;2)一种启发式导航算法,通过压缩的二维楼层地图和双组件空间推理,自主规划复杂室内环境中的避障路径;3)一个场景引导的运动扩散模型,通过结合空间锚点和双空间分类器自由指导,生成轨迹控制的全身运动,并达到手指级别的精度。 在TRUMANS数据集上的广泛实验表明,我们的方法优于最先进的技术。 值得注意的是,我们的框架通过自回归生成支持无限长度的动作,并且需要最少的人工干预。 这项工作弥合了场景感知导航与灵巧物体操作之间的关键差距,推动了具身交互合成的前沿发展。 代码将在发表后提供。 项目页面:http://yw0208.github.io/hosig
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.