计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: ShapeLLM-Omni:一种用于3D生成和理解的原生多模态大型语言模型
标题: ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding
摘要: 近期,ChatGPT-4o强大的文本到图像能力引发了对原生多模态大型语言模型的日益关注。然而,其多模态能力仍局限于图像和文本。除了图像之外,理解和生成3D内容的能力同样至关重要。为填补这一空白,我们提出了ShapeLLM-Omni——一种能够理解并生成任意顺序3D资产和文本的原生3D大型语言模型。 首先,我们训练了一种3D向量量化变分自编码器(VQVAE),它将3D物体映射到离散潜在空间,以实现高效且准确的形状表示与重建。 在此基础上,我们创新性地构建了一个名为3D-Alpaca的大规模连续训练数据集,涵盖了生成、理解与编辑,从而为未来的科研和训练提供了丰富的资源。 最后,在3D-Alpaca数据集上对Qwen-2.5-vl-7B-Instruct模型进行了基于指令的训练。 我们的工作为扩展具备基本3D能力的多模态模型提供了一种有效的尝试,这有助于未来3D原生人工智能的研究。 项目页面:https://github.com/JAMESYJL/ShapeLLM-Omni
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.