3D Latent Space Representations¶

3D Latent Space Representations 是当前高质量 3D 生成系统主要的基础模块之一。

2D 生成模型已逐步收敛到"更大的模型、更好的数据、更稳定的训练范式"，而 3D 生成至今尚未完全统一，其中一个关键原因在于：

3D 数据应当先被压缩成什么样的隐空间，才能使模型既可训练，又能生成高质量结果，并最终稳定输出 mesh？

Why It Matters¶

一个 3D latent representation 至少同时影响四个方面：

训练是否可扩展：token 太多，Transformer/DiT/Flow 难以 scale。
几何是否保真：latent 太弱，细节、锐边、薄结构、拓扑都会丢失。
是否易于控制和编辑：缺乏显式位置结构，局部控制将难以实现。
最终 mesh 质量：如果 latent 本身与 mesh 目标脱节，mesh extraction 往往成为瓶颈。

因此 3D latent 并非中间技术细节，而是连接 3D 数据、生成模型、编辑模型和最终 mesh 输出之间的核心桥梁。

A Practical Taxonomy¶

当前与 mesh generation 关系最紧密的 3D latent / token 表征，大致可分为 8 类：

类别	代表工作	核心思想	主要优点	主要问题
Latent Set / VecSet	3DShape2VecSet	把 3D 形状压成固定长度 latent vectors	紧凑、Transformer 友好	空间位置语义偏弱
Structured Sparse Latent	TRELLIS / SLAT	稀疏空间结构 + 每位置局部 latent	有显式结构，适合局部编辑	token 较重
Native Structured 3D Latent	TRELLIS 2 / O-Voxel	更接近原生 3D 资产单元的 latent	支持开放表面、非流形、PBR	体系复杂
Semi-structured Localizable Latent	LATTICE / VoxSet	用粗 voxel anchor 增强 set-based latent 的位置语义	兼顾紧凑性和可定位性	仍非最终 mesh 表示
VecSet-based Scaling	TripoSG / Hunyuan3D 2.0	继承 VecSet latent，用大规模数据 + SDF VAE + RF/DiT 做系统化 scaling	系统化、可工业部署	隐空间仍为 unstructured set
Sparse Volumetric High-res Latent	SparseFlex / Direct3D-S2	在 sparse isosurface / sparse attention 上做高分辨率 scaling	高保真、工程上可扩展	仍需走 field / extraction 路线
Octree / Modality-consistent Latent	OctFusion / Sparc3D	八叉树自适应或纯 3D 稀疏卷积，消除 2D-3D 模态转换	模态一致、自适应分辨率	实现复杂，仍依赖 isosurface
Extreme Compression Tokenization	VAT	将 3D shape 压缩至 256 个 token（250x-2000x 压缩）	极端紧凑，可对接 LLM	空间局部性丢失
Mesh-native Token Space	BPT / FACE / Nautilus / MeshRipple / QuadGPT / TSSR	直接把 mesh 序列本身作为建模空间	原生面向 mesh 输出	序列建模难度高

最后一类严格来说不完全属于"latent space"传统意义上的 VAE latent，但它实际上在回答同一个问题：

如果目标是 mesh，模型应当在哪个内部表示空间里生成？

因此在表征研究的完整视角下，这条路线值得关注。

Evolution Line¶

1. VecSet: make 3D latent Transformer-friendly¶

代表：3DShape2VecSet

该工作率先清晰地证明了：

3D 形状可以不依赖显式 voxel / grid；
可以被编码为固定长度 latent set；
再通过 cross-attention 解码成 neural field。

其重要性不仅在于方法本身，更在于建立了一个范式：

3D 生成可以像 2D latent diffusion 一样，先压缩到一个紧凑、规则的 latent 空间再建模。

但 VecSet 的局限性在于：虽然紧凑，但 token 的空间语义不够明确——模型知道"这些 token 对应这个 shape"，却难以确定"哪个 token 更接近空间里的哪一块"。

2. SLAT: make latent structured and editable¶

代表：TRELLIS

TRELLIS 提出 SLAT (Structured LATent)：

用稀疏体素位置 {p_i} 定义结构；
用局部 latent {z_i} 填充每个位置的细节。

相比 VecSet，SLAT 的关键提升在于：

token 具有空间锚点；
结构和细节可以解耦建模；
局部编辑、局部重绘有了天然的操作基础。

因此 TRELLIS 不仅是一个生成模型，也成为后续多种编辑方法的基础骨干。

3. O-Voxel: from structured latent to native 3D latent¶

代表：TRELLIS 2

TRELLIS 已经把 latent 锚定到空间，但底层几何仍大量依赖 SDF / isosurface 逻辑。TRELLIS 2 进一步指出：

SDF 对开放表面不友好；
对非流形结构支持不自然；
对几何和材质的统一建模不够原生。

因此它提出 O-Voxel，目标是把 latent representation 从"结构化中间表示"推进到"更原生的 3D 资产表示"。

这标志着一个重要的方向变化：

研究重点不再仅是让 latent 更适合生成，而是让 latent 本身更像真实的 3D 数据结构。

4. VoxSet: localizable code over pure local/global debate¶

代表：LATTICE / VoxSet

LATTICE 提出的一个核心观点是：

讨论焦点不在 local vs global 的二选一，更在 latent code 是否 localizable。

这一判断的含义是：

VecSet 的问题不仅是"太全局"；
sparse voxel 的优势也不仅是"更局部"；
关键是 token 能否在生成时被明确放置到某个空间位置上。

VoxSet 的做法是：

保留 set-based latent 的紧凑性；
用 coarse voxel anchors 赋予位置语义；
最终实现更强的 test-time scaling 和更好的细节建模。

5. VecSet-based scaling: TripoSG 与 Hunyuan3D 2.0¶

代表：TripoSG / Hunyuan3D 2.0

TripoSG 和 Hunyuan3D 2.0 本质上继承了 3DShape2VecSet 的 latent set 路线——VAE 输出为 1D latent vector set（TripoSG: L × C, L ∈ {512, 2048, 4096}, C = 64），而非 sparse 3D voxel grid。它们的重点不在隐空间结构创新，而在大规模系统化 scaling：高质量数据构建、SDF VAE、Rectified Flow / DiT、MoE 等工程手段。SDF field 的查询分辨率可达 512^3，但 latent 本身是 unstructured token set。

6. Sparse volumetric scaling: make high resolution actually trainable¶

代表：SparseFlex / Direct3D-S2

与 TripoSG 不同，这一组工作的 latent 具有显式 3D 空间结构。它们不只讨论"表示该怎么设计"，而是在回答：

这个表示能否在高分辨率、大模型、大数据条件下训练起来？

SparseFlex 聚焦高分辨率 shape modeling 基础设施：稀疏可微 isosurface + frustum-aware sectional voxel training + arbitrary topology。
Direct3D-S2 推进 sparse SDF VAE / sparse attention 的工程可扩展性。

这条路线使"高分辨率 3D latent generation"从概念走向可训练系统。

7. Octree & modality-consistent latent: structural efficiency and pipeline purity¶

代表：OctFusion、Sparc3D

这一组工作的共同关注点是：隐空间的结构效率和管线纯度。

OctFusion（SGP 2025）的核心设计是八叉树隐空间：

空间用八叉树自适应划分，表面附近用高分辨率节点，远处用低分辨率节点
在此之上设计了统一的多尺度 U-Net 扩散模型，权重和计算在不同 octree 层级间共享
避免了 cascaded diffusion（多模型级联）的复杂性
输出保证连续流形 mesh，单卡 2.5 秒生成

OctFusion 代表的趋势是：latent 的空间结构不需要是均匀的。八叉树让模型把算力集中在表面附近，是一种更合理的计算资源分配方式。

Sparc3D 的关注点更本质——模态一致性（modality consistency）：

指出现有 VAE 普遍用 2D 渲染损失做监督，导致 3D → 2D → 3D 的信息路径存在模态不匹配
提出 Sparcubes（稀疏可变形 MC 表示）+ Sparconv-VAE（纯 3D 稀疏卷积 VAE）
整个管线中没有 2D → 3D 或 3D → 2D 的模态转换：输入是 3D，中间是 3D，输出是 3D
在 1024^3 分辨率下实现了高保真重建

Sparc3D 系统性地指出的这个问题——VAE 训练时的模态不匹配——是此前被忽视但实际影响很大的因素。预计后续更多方法会采用纯 3D 原生训练管线。

8. Extreme compression: make 3D fit into LLM context¶

代表：VAT

VAT 走了一条与上述所有方法不同的路：极端压缩。

用 in-context transformer 将大量无序 3D 特征压缩到少量 learnable query token 中
映射到高斯分布后做残差量化
不同尺度的 token 从同一高斯分布的不同子空间分配，构建隐式层级

关键数字：250x 压缩比（1MB mesh → 3.9KB，96% F-score），进一步到 256 个 int8 token 实现 2000x 压缩。

VAT 的意义在于：如果 3D shape 能用 256 个 token 表示，它就可以直接进入 GPT 类模型的 context window。这为 multimodal LLM 统一理解和生成 3D 打开了可能性。

代价是：极端压缩后空间局部性信息基本丢失，不利于局部编辑。

9. Mesh-native route: generate in mesh space directly¶

代表：MeshAnything V2 / BPT / FACE / Nautilus / MeshRipple / QuadGPT / TSSR

这条路线的出发点是：

如果最终目标就是高质量 mesh，为什么不直接在 mesh 自身的 token 空间里建模？

2024-2026 年间，这条路线经历了快速发展：

序列压缩阶段（2024）：

MeshAnything V2：AMT，让相邻面尽可能共享边和顶点上下文。
BPT：Blocked and Patchified Tokenization，把 mesh 序列压到 0.26。
FACE：one-face-one-token，把建模单元提升到 triangle face，压到 0.11。

拓扑感知序列化阶段（2025）：

Nautilus（ICCV 2025）：利用流形 mesh 面间的拓扑邻接关系做序列压缩——BFS 遍历保证相邻面在序列中也相邻，共享顶点/边只编码一次。面数上限推到 5000。
MeshRipple：frontier-aware BFS tokenization + 前沿批量扩展 + sparse-attention global memory。生成过程像涟漪一样从种子面向外扩展，天然保证表面连通性。

拓扑类型和范式扩展阶段（2025-2026）：

QuadGPT（ICLR 2026）：首个端到端四边形 mesh 自回归生成。统一的 tri/quad 混合 tokenization + tDPO（面向拓扑质量的 RL 微调）。
TSSR：首个用离散扩散（而非 AR）做 mesh-native 生成的方法。拓扑雕刻 + 形状细化两阶段，10,000 面，1024^3 分辨率。全局并行推理对拓扑一致性天然更友好。

这条路线的进展速度很快，面数上限从 2024 年的 ~800（MeshGPT）增长到 2025 年的 10,000（TSSR），18 个月内增长了一个数量级。

Key Observations¶

1. Compactness is necessary, but not sufficient¶

token 数量少仅意味着训练可能更高效，并不意味着模型能确定细节的空间位置、支持局部控制或实现编辑。

2. Localizability is the real turning point¶

从 VecSet 到 SLAT/VoxSet，一个转折点是：

latent token 开始拥有明确空间锚点。

一旦具备这一属性，后续的局部编辑、repainting、mask conditioning、test-time scaling 才具有自然的操作基础。

3. Native-ness will likely matter more and more¶

无论是 O-Voxel 还是 FACE，其本质都在做同一件事：

把内部表示往"真实 3D 结构"方向推进，而不是停留在便于训练的抽象中间层。

这一趋势在未来几年内大概率将持续加强。

4. Modality consistency is an underappreciated factor¶

Sparc3D 指出的模态不匹配问题——VAE 用 2D 渲染损失训练但目标是 3D 几何——是一个被低估但影响实际的因素。当 VAE 的训练监督与目标模态一致时（3D 输入、3D latent、3D 监督），重建保真度有可观提升。这个观察可能改变后续 VAE 设计的默认选择。

5. Structural adaptivity beats uniform grids¶

OctFusion 的八叉树和 SparseFlex 的稀疏体素都指向同一个方向：3D 空间中的信息分布是高度不均匀的（集中在表面附近），隐空间的结构应当反映这种不均匀性。均匀 dense grid 在高分辨率下既不经济也不必要。

6. Mesh-native tokenization is evolving fast¶

从坐标排序到拓扑感知 BFS，从三角 mesh 到四边形 mesh，从自回归到离散扩散——mesh-native 路线在 2024-2026 年间经历了三代快速迭代。面数上限的数量级增长（800 → 10,000）和拓扑类型的扩展（tri → quad）表明这条路线正在走向实用。

7. Three-axis positioning¶

当前 mesh generation 中的 3D latent / token 表征，需要在三个维度之间做取舍：

Compactness：token 足够少，训练可扩展。
Localizability：token 能对应明确的空间位置。
Native-ness：表示尽量接近真实 3D 资产，减少对后处理转换的依赖。

VecSet 更偏 compactness，SLAT 更偏 localizability，O-Voxel 更偏 native-ness，VoxSet 是三者的折中方案，OctFusion/Sparc3D 强调结构效率和模态纯度，VAT 把 compactness 推到极端，而 BPT / FACE / Nautilus / TSSR 代表的是 mesh-native 路线的另一端。

A Working Comparison Framework¶

评估这一方向的论文时，可以统一使用以下 7 个维度进行定位：

表示单元是什么？ set、voxel、octree node、face、patch 还是 field？
token 是否带显式位置语义？
是更偏 geometry，还是 geometry + appearance 一体化？
是否支持 open surfaces / non-manifold / interior structures？
最终输出 mesh 需要多少后处理？
训练管线中是否存在模态转换（2D ↔ 3D）？
它更适合 generation、editing，还是 reconstruction backbone？

Core Paper Sequence¶

理解这一方向的核心论文，建议按以下顺序阅读：

3DShape2VecSet — VecSet 起点
TRELLIS — SLAT，structured latent 的关键节点
TRELLIS 2 — O-Voxel，native structured latent
LATTICE / VoxSet — semi-structured + localizable code
TripoSG — 大规模 RF + SDF VAE 的系统化 scaling
SparseFlex — 高分辨率 arbitrary-topology sparse isosurface
Direct3D-S2 — Sparse SDF VAE + spatial sparse attention
OctFusion — 八叉树 latent + 统一多尺度 U-Net
Sparc3D — 模态一致的纯 3D 稀疏卷积 VAE
VAT — 极端压缩 variational tokenizer
MeshAnything V2 — AMT，mesh-native tokenization
BPT — patch + block 压缩
FACE — one-face-one-token
Nautilus — locality-aware BFS，5000 面
MeshRipple — frontier-aware BFS + global memory
QuadGPT — 首个 quad mesh AR + tDPO
TSSR — 离散扩散 mesh-native，10,000 面

Research Implications¶

从研究视角看，这条文献线提供了以下指导：

以高质量 image-to-3D mesh generation 为目标时，应重点关注 latent 是否具有足够的 localizability，以及训练管线是否存在模态不匹配。
以 native 3D editing 为目标时，应重点关注 latent 是否天然支持局部替换和重绘。
以高质量 mesh 输出为最终产物时，不能仅关注 latent field，还需将 mesh-native token 空间纳入考量——尤其是拓扑感知序列化（Nautilus、MeshRipple）和非 AR 范式（TSSR）。
以与 LLM 统一为长期目标时，极端压缩路线（VAT）的进展值得持续跟踪。
以实际生产资产为目标时，quad mesh 生成（QuadGPT）和 part-aware 生成（PartCrafter）是值得关注的方向。

3D Latent Space Representations 构成了一个具有独立研究价值的系统性方向，横跨表征设计、生成建模与下游应用多个层面。