跳转至

ShapeLLM-Omni

ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding

Overview

ShapeLLM-Omni 把 3D 生成、理解、描述和编辑都放进一个统一的 autoregressive 多模态大模型里,并不局限于传统的单任务编辑。它的核心是:把 3D mesh 也离散成 token,使 3D 可以像语言一样参与 next-token prediction。


核心问题

很多 3D 方法只做单任务:

  • 要么 text-to-3D
  • 要么 image-to-3D
  • 要么 3D understanding
  • 要么 3D editing

ShapeLLM-Omni 想做的是:

能不能把 3D 作为一种原生模态,直接接进多模态 LLM,让模型在文本、图像、3D 之间自由切换。


方法框架

1. 3D VQVAE

  • 先训练一个 3D VQVAE
  • 把 mesh 编码成离散 3D token
  • 这样 3D 就能像词表 token 一样被 LLM 处理

2. 统一 next-token prediction

  • 模型继承 Qwen2.5-VL 的图文能力
  • 再加入 3D token 词表
  • 统一做自回归生成

因此它支持:

  • text-to-3D
  • image-to-3D
  • 3D-to-caption
  • 3D editing

3. 3D-Alpaca 数据集

论文构建了一个较大的 3D 对话训练集:

  • text/image to 3D
  • 3D understanding
  • 3D editing

总规模约 2.56M 样本、3.46B tokens。


编辑相关部分

ShapeLLM-Omni 的 editing 被统一写进语言模型训练中,并不是单独外挂一个编辑器:

  • 先定义可执行的编辑 prompt
  • 再为资产生成前后编辑图像对
  • 用 Trellis 等方法把这些图像对重建成 3D before/after 对
  • 最后把它们写成对话格式训练

论文里编辑数据大约有 62k 对,最终构成 3D-Alpaca 的一部分。

这意味着它更像“会对话的 3D agent 原型”,而不是最强的单任务编辑器。


关键实验结论

语言能力

引入 3D 能力后,ShapeLLM-Omni 仍保持了接近原 Qwen2.5-VL 的一般语言能力:

  • MMLU = 63.9
  • PIQA = 78.6
  • GSM8K = 55.1

说明加入 3D token 后,模型并没有完全牺牲通用对话能力。

3D 生成

  • 在 text-to-3D / image-to-3D 上优于多种 baseline
  • 但整体仍弱于专门为单任务生成优化的 TRELLIS

论文也明确解释了原因:

  • 它是一个 all-in-one 模型
  • 同时学生成、理解、编辑、对话
  • 自然会在单项极限性能上让位于专门系统

3D 理解

  • 在 3D caption 等理解任务上表现较强
  • 仅次于专门为 3D understanding 训练的单任务模型

这验证了它的统一多模态路线是可行的。


为什么它重要

ShapeLLM-Omni 的价值主要不在单项 SOTA,而在方向上:

  • 它证明 3D token 可以真正并入原生多模态 LLM
  • 3D 编辑不一定非要做成独立管线,也可以做成对话式能力的一部分

对知识库来说,它更像“3D-native AI”路线的代表,而不是单纯编辑 benchmark 选手。


局限

  • 单任务性能仍不如专门的 3D 生成或编辑模型
  • 离散 autoregressive 生成方式在质量上和 flow / diffusion 路线仍有差距
  • 编辑能力目前更像基础能力验证,还不是工业级高保真编辑系统

一句话总结

ShapeLLM-Omni 的主要意义,是把 3D generation、understanding、captioning 和 editing 统一进一个原生多模态 LLM 框架里,让 3D 真正成为可对话、可生成、可操作的离散模态。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部