VAT¶

3D Representation in 512-Byte: Variational Tokenizer is the Key for Autoregressive 3D Generation

Overview

VAT 关注的核心问题是：如何将 3D shape 压缩到极端紧凑的 token 表示中，使其适合大语言模型风格的自回归生成。 它实现了 250x 压缩比（1MB mesh → 3.9KB），是目前 3D tokenization 中压缩率最高的方案。

核心问题¶

将自回归 transformer 用于 3D 生成面临一个根本挑战：

3D 数据缺乏天然的序列结构和多尺度层级。

对比图像 tokenization：

图像有规整的 patch 网格，天然的扫描顺序，以及多尺度金字塔
VQ-VAE/VQGAN 可以将图像压缩为数百个 discrete token
GPT 风格的 AR 模型可以直接在这些 token 上工作

3D 数据的困难：

无序的点云或 mesh 没有天然的扫描顺序
3D 特征之间的多尺度关系不像图像那样明确
现有方法要么压缩不够（token 太多），要么压缩过度（丢失结构细节）

方法概述¶

In-context Transformer 压缩¶

VAT 的第一步是将大量无序的 3D 特征压缩为少量有序 token：

输入：从 3D shape 提取的一组无序特征（如点云特征）
用 in-context transformer 做 cross-attention，将 N 个无序特征压缩到 M 个 learnable query token 中（M << N）
关键在于信息损失最小化——通过重建损失确保压缩是 near-lossless 的

变分量化：映射到高斯分布¶

压缩后的 latent token 被映射到一个高斯分布空间：

这里采用的是 variational approach，不直接做 VQ（向量量化）
latent space 是连续的高斯分布
然后用 residual quantization（残差量化）将连续 latent 离散化

多尺度 token 分配¶

VAT 的一个关键设计：不同尺度的 token 从同一个高斯分布的不同子空间中分配。

粗尺度：少量 token，编码全局形状
细尺度：更多 token，编码局部细节
token 数量跨尺度递增

这构建了一个隐式的层级结构：

粗到细的 token 之间的关系是在同一个连续空间中定义的
AR 模型可以自然地按从粗到细的顺序生成

高分辨率 Triplane 解码¶

解码时，compact latent tokens 被展开为高分辨率的 triplane representation：

triplane 可以编码细致的 3D 几何
从 triplane 查询 SDF 并用 MC 提取 mesh

压缩率数字¶

指标	数值
1MB mesh → latent	3.9KB (250x 压缩)
进一步压缩	256 个 int8 token (2000x 压缩)
250x 压缩时 F-score	96%
2000x 压缩时 F-score	92%

这些数字意味着一个完整的 3D shape 可以用 256 个整数表示，与图像 token 数量相当。

为什么值得关注¶

1. 对接 LLM 架构¶

如果 3D shape 能用 256 个 token 表示，那它就可以直接放进 GPT 架构的上下文窗口中。这为"multimodal LLM 理解和生成 3D"打开了门。

2. 隐式层级结构¶

多尺度 token 从同一高斯分布分配的设计很优雅——它不需要显式定义层级关系，层级是从分布子空间中自然涌现的。

3. 验证了极端压缩的可行性¶

96% F-score 的 250x 压缩说明 3D shape 的内在维度远低于其原始表示，存在大量可以被利用的冗余。

与其他工作的关系¶

相比 3DShape2VecSet / LATTICE¶

3DShape2VecSet 用 cross-attention 将 3D 特征编码为 latent set，思路类似
LATTICE 用 VQ-VAE 做 3D tokenization
VAT 的压缩比远高于两者

相比 Nautilus / BPT（mesh-native tokenization）¶

Nautilus/BPT 在 mesh 的顶点和面层面做 token 化
VAT 在 3D shape 的隐空间层面做 token 化
两条路线目标不同：前者保留 mesh 结构，后者最大化压缩

相比 TRELLIS 的 SLAT¶

SLAT 也是 latent space tokenization，但保留了空间结构（structured latent）
VAT 更侧重极端压缩，牺牲空间结构换取更少的 token 数

优势与局限¶

优势¶

极端压缩比（250x-2000x）使 3D 生成与 LLM 架构对接成为可能
多尺度隐式层级结构设计优雅
near-lossless 压缩（96% F-score at 250x）
适合 coarse-to-fine 自回归生成

局限¶

极端压缩必然在某些细节上有损，92% F-score at 2000x 意味着约 8% 的几何信息丢失
解码依赖 triplane + MC，继承了这条管线的分辨率限制
压缩为无结构 token 后，空间局部性信息丢失，不利于局部编辑
尚未在大规模 Objaverse 全集上验证

一句话总结¶

VAT 通过 in-context transformer 压缩、变分量化和多尺度 token 分配，将 3D shape 压缩为 256 个 token（250x-2000x 压缩比），是目前最紧凑的 3D tokenization 方案，为 3D 自回归生成与 LLM 架构的对接提供了关键基础。