TRELLIS 2¶
TRELLIS 2
TRELLIS 已经通过 SLAT 把 3D latent 变成"有结构、可编辑"的表示;TRELLIS 2 则进一步追问:
如果底层几何仍然主要依赖 SDF / isosurface,3D 生成是否仍然停留在一个不够原生的表示层?
它给出的回答是 O-Voxel。
从 SLAT 到 O-Voxel¶
TRELLIS 的主要贡献是 SLAT:
- 稀疏空间位置负责结构
- 局部 latent 负责细节
这已经很强,但仍然存在几个问题:
- SDF 对开放表面不友好
- 对非流形结构支持不自然
- 几何和材质往往不是原生一体化
- 高分辨率 structured latent 成本仍然偏高
TRELLIS 2 的方向变化在于:
目标是让 latent 更接近 3D 资产结构本身,而不只是做到“有结构”。
O-Voxel 的核心思想¶
O-Voxel 可以理解为一种更原生的结构化 3D 单元表示。
它和传统 SDF latent 的区别在于:
- 不再把几何等同为一个待抽壳的连续场
- 而是直接在结构化单元中编码更原生的几何/材质信息
这使它更自然地处理:
- 开放表面
- 非流形结构
- 带内部结构的对象
- 原生 PBR 材质
每个活动体素编码以下信息:
Shape features \(f_i^{shape}\):
- dual vertex \(v \in \mathbb{R}^3\):体素内的 mesh 顶点偏移
- edge intersection flags \(\delta \in \{0,1\}^3\):三条轴对齐边是否与表面相交
- splitting weights \(\gamma \in \mathbb{R}^1\):用于局部三角化的分裂权重
Material features \(f_i^{mat}\):
- \(c_{\text{basecolor}}\):PBR 基础颜色
- \(m_{\text{metallic}}\):金属度
- \(r_{\text{roughness}}\):粗糙度
- \(\alpha_{\text{opacity}}\):透明度
整体设计基于 Flexible Dual Grid(受 Dual Contouring 启发),是 field-free 的——不需要 SDF 或任何连续场。Mesh↔O-Voxel 之间可以在 CPU 上数秒内完成双向即时转换。
SC-VAE¶
TRELLIS 2 同时提出了 SC-VAE(Sparse Convolutional VAE),目的是进一步提高压缩效率。
架构设计¶
SC-VAE 是一个纯稀疏卷积架构(非 Transformer):
- 采用 Sparse Residual Autoencoding:通道-空间信息交换机制
- 残差块使用 ConvNeXt-style 设计优化
- 包含 Early-pruning upsampler:在上采样早期剪掉不需要的体素
- 16× 空间下采样,一个 \(1024^3\) fully-textured asset 可压到约 9.6K latent tokens
损失函数¶
训练分为两个阶段:
Stage 1(几何 + 材质重建):
- \(v̂, v\):dual vertex 预测/GT
- \(\hat{\delta}, \delta\):edge intersection flags
- \(\hat{\rho}, \rho\):occupancy
- \(f̂^{mat}, f^{mat}\):材质特征
Stage 2(加入渲染监督):
其中 \(\mathcal{L}_{render}\) 包含 mask/depth/normal 的 L1、SSIM 和 LPIPS 损失。
生成系统¶
TRELLIS 2 采用三阶段 DiT 生成:
| 阶段 | 功能 | 模型规模 |
|---|---|---|
| Stage 1 | 结构生成(占据/非占据) | 1.3B DiT |
| Stage 2 | 几何细节填充 | 1.3B DiT |
| Stage 3 | 材质生成 | 1.3B DiT |
| 总计 | ~4B params |
训练配置:32×H100,batch size 256,AdamW lr 1e-4,训练资产规模约 800K。
推理效率:
- \(512^3\) 级别 fully-textured asset 约 3s
- \(1024^3\) 约 17s
- \(1536^3\) 约 60s
实验结果¶
Reconstruction(Tab 1, Toys4K + Sketchfab)¶
TRELLIS 2 在 Toys4K 和 Sketchfab 上的 MD、CD、F1、PSNR 等指标均优于 TRELLIS v1、Direct3D-S2、SparseFlex 和 Dora。
Generation(Tab 2)¶
| 指标 | TRELLIS 2 |
|---|---|
| CLIP | 0.894 |
| ULIP-2 | 0.477 |
| Uni3D | 0.436 |
| User study preference | 66.5% / 69.0% |
Ablation(Tab 3)¶
Sparse Residual Autoencoding 和 Optimized ResBlock 均对重建质量有明显贡献。
它在整条文献线里的位置¶
这条发展线可以概括为:
3DShape2VecSet:先有紧凑 latent setTRELLIS / SLAT:再让 latent 结构化、可编辑- TRELLIS 2 / O-Voxel:进一步让 latent 更接近 native 3D asset
因此 TRELLIS 2 的意义不在于对 TRELLIS 的渐进式改进,而在于表示路线层面的升级。
与其他方法的关系¶
相比 TRELLIS v1¶
- v1 更强调"结构化 latent"
- v2 更强调"native structured latent"
相比 LATTICE / VoxSet¶
- VoxSet 更像 compactness 与 localizability 的折中
- O-Voxel 更像往原生 3D 资产单元推进
相比 BPT / FACE¶
- O-Voxel 仍然是在 latent representation 路线上推进
- BPT / FACE 则在 mesh-native token space 上推进
两者都在追求"更原生",但方向不同。
局限¶
- 尽管 latent 已经更紧凑,但整体系统仍然是大模型路线(~4B params),训练成本并不低
- 形状与材质采用三阶段分别生成,系统复杂度高于单阶段方案
- O-Voxel 更接近 asset representation,但并不等于直接在最终 mesh 编辑空间里工作
一句话总结¶
TRELLIS 2 的主要价值,是把 3D latent 表示从"有结构的中间表示"进一步推进到"更原生的 3D 资产表示",而 O-Voxel + SC-VAE 代表的正是这一方向:不仅要可生成、可压缩,还要更自然地支持开放表面、非流形结构和原生材质。