计算机科学 > 计算机视觉与模式识别
[提交于 2025年5月1日
(v1)
,最后修订 2025年6月26日 (此版本, v2)]
标题: 联合DiT:使用扩散变压器增强RGB-深度联合建模
标题: JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers
摘要: 我们提出JointDiT,一种建模RGB和深度联合分布的扩散变压器。 通过利用最先进的扩散变压器的架构优势和出色的图像先验,JointDiT不仅生成高保真图像,还生成几何上合理且准确的深度图。 这种坚实的联合分布建模是通过我们提出的两种简单而有效的方法实现的,即自适应调度权重,这取决于每个模态的噪声水平,以及不平衡的时间步采样策略。 通过这些技术,我们在每个模态的所有噪声水平上训练我们的模型,使JointDiT能够通过简单控制每个分支的时间步长,自然处理各种组合生成任务,包括联合生成、深度估计和深度条件图像生成。 JointDiT表现出卓越的联合生成性能。 此外,它在深度估计和深度条件图像生成方面达到了可比的结果,表明联合分布建模可以作为条件生成的可替换替代方案。 项目页面可在https://byungki-k.github.io/JointDiT/ 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.