Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.24877

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2505.24877 (cs)
[提交于 2025年5月30日 ]

标题: AdaHuman:基于组合多视图扩散的可动画详细3D人体生成

标题: AdaHuman: Animatable Detailed 3D Human Generation with Compositional Multiview Diffusion

Authors:Yangyi Huang, Ye Yuan, Xueting Li, Jan Kautz, Umar Iqbal
摘要: 现有的图像到3D头像生成方法难以生成高度详细的、可动画化的头像,这些头像适用于现实世界的应用场景。 我们引入了AdaHuman,这是一种新颖的框架,可以从单张野外图像生成高保真的可动画化3D头像。 AdaHuman包含了两项关键创新:(1)一种姿态条件的3D关节扩散模型,在每个扩散步骤中,可以同时合成任意姿态下的多视角图像以及对应的3D高斯光点(3DGS)重建;(2)一种组合式3DGS细化模块,通过图像到图像的细化来增强局部身体部位的细节,并利用一种新颖的裁剪感知相机射线图无缝地将它们集成起来,从而生成一个连贯且详细的3D头像。 这些组件使AdaHuman能够生成高度逼真的标准A-pose头像,最大程度减少自遮挡现象,支持与任何输入运动的绑定和动画处理。 在公共基准数据集和野外图像上的广泛评估表明,AdaHuman在头像重建和重新定位方面显著优于最先进的方法。 代码和模型将公开用于研究目的。
摘要: Existing methods for image-to-3D avatar generation struggle to produce highly detailed, animation-ready avatars suitable for real-world applications. We introduce AdaHuman, a novel framework that generates high-fidelity animatable 3D avatars from a single in-the-wild image. AdaHuman incorporates two key innovations: (1) A pose-conditioned 3D joint diffusion model that synthesizes consistent multi-view images in arbitrary poses alongside corresponding 3D Gaussian Splats (3DGS) reconstruction at each diffusion step; (2) A compositional 3DGS refinement module that enhances the details of local body parts through image-to-image refinement and seamlessly integrates them using a novel crop-aware camera ray map, producing a cohesive detailed 3D avatar. These components allow AdaHuman to generate highly realistic standardized A-pose avatars with minimal self-occlusion, enabling rigging and animation with any input motion. Extensive evaluation on public benchmarks and in-the-wild images demonstrates that AdaHuman significantly outperforms state-of-the-art methods in both avatar reconstruction and reposing. Code and models will be publicly available for research purposes.
评论: 网站: https://nvlabs.github.io/AdaHuman
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2505.24877 [cs.CV]
  (或者 arXiv:2505.24877v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.24877
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Yangyi Huang [查看电子邮件]
[v1] 星期五, 2025 年 5 月 30 日 17:59:54 UTC (9,237 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号