Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2509.03680

帮助 | 高级搜索

计算机科学 > 图形学

arXiv:2509.03680 (cs)
[提交于 2025年9月3日 ]

标题: LuxDiT:基于视频扩散变压器的光照估计

标题: LuxDiT: Lighting Estimation with Video Diffusion Transformer

Authors:Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang
摘要: 从单张图像或视频中估计场景光照仍然是计算机视觉和图形学中的一个长期挑战。 基于学习的方法受到真实HDR环境图稀缺的限制,这些环境图捕获成本高且多样性有限。 尽管最近的生成模型为图像合成提供了强大的先验知识,但由于依赖间接视觉线索、需要推断全局(非局部)上下文以及恢复高动态范围输出,光照估计仍然困难。 我们提出了LuxDiT,一种新颖的数据驱动方法,通过微调视频扩散变压器来根据视觉输入生成HDR环境图。 在包含多种光照条件的大规模合成数据集上进行训练,我们的模型学会了从间接视觉线索中推断照明,并能有效地推广到真实场景。 为了提高输入与预测环境图之间的语义对齐,我们引入了一种使用收集的HDR全景图数据集的低秩适应微调策略。 我们的方法产生了具有真实角度高频细节的准确光照预测,在定量和定性评估中均优于现有的最先进技术。
摘要: Estimating scene lighting from a single image or video remains a longstanding challenge in computer vision and graphics. Learning-based approaches are constrained by the scarcity of ground-truth HDR environment maps, which are expensive to capture and limited in diversity. While recent generative models offer strong priors for image synthesis, lighting estimation remains difficult due to its reliance on indirect visual cues, the need to infer global (non-local) context, and the recovery of high-dynamic-range outputs. We propose LuxDiT, a novel data-driven approach that fine-tunes a video diffusion transformer to generate HDR environment maps conditioned on visual input. Trained on a large synthetic dataset with diverse lighting conditions, our model learns to infer illumination from indirect visual cues and generalizes effectively to real-world scenes. To improve semantic alignment between the input and the predicted environment map, we introduce a low-rank adaptation finetuning strategy using a collected dataset of HDR panoramas. Our method produces accurate lighting predictions with realistic angular high-frequency details, outperforming existing state-of-the-art techniques in both quantitative and qualitative evaluations.
评论: 项目页面:https://research.nvidia.com/labs/toronto-ai/LuxDiT/
主题: 图形学 (cs.GR) ; 人工智能 (cs.AI); 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2509.03680 [cs.GR]
  (或者 arXiv:2509.03680v1 [cs.GR] 对于此版本)
  https://doi.org/10.48550/arXiv.2509.03680
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Ruofan Liang [查看电子邮件]
[v1] 星期三, 2025 年 9 月 3 日 19:59:20 UTC (29,773 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.GR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-09
切换浏览方式为:
cs
cs.AI
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号