计算机科学 > 计算机视觉与模式识别
[提交于 2025年5月31日
]
标题: ArtiScene:基于图像中介的语言驱动艺术性3D场景生成
标题: ArtiScene: Language-Driven Artistic 3D Scene Generation Through Image Intermediary
摘要: 设计三维场景一直是一项具有挑战性的任务,它既需要艺术专业知识,也需要熟练掌握复杂的软件。 最近,在文本到三维生成方面的进展通过让用户基于简单的文本描述创建场景极大地简化了这一过程。 然而,由于这些方法通常需要额外的训练或上下文学习,它们的性能往往受到高质量三维数据可用性有限的限制。 相比之下,从网络规模图像中学习的现代文本到图像模型能够生成具有多样化、可靠的空间布局以及一致且视觉上吸引人的风格的场景。 我们的关键见解是,与其直接从三维场景中学习,不如利用生成的二维图像作为中介来引导三维合成。 基于此,我们介绍了ArtiScene,这是一种无需训练的自动化场景设计管道,它结合了自由形式文本到图像生成的灵活性和二维中介布局的多样性和可靠性。 首先,我们从场景描述生成二维图像,然后提取物体的形状和外观以创建三维模型。 这些模型使用从同一中介图像推导出的几何、位置和姿态信息组装成最终场景。 ArtiScene在广泛的场景和风格中具有通用性,在布局和美学质量方面以量化指标远远超过最先进的基准,并在广泛的用户研究中平均达到74.89%的胜率,在GPT-4o评估中达到95.07%。 项目页面:https://artiscene-cvpr.github.io/
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.