跳转至

Direct3D-S2

Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

Overview

Direct3D-S2 属于 sparse volumetric latent 路线中的代表工作之一。它关注的核心在于把 Sparse SDF VAE + spatial sparse attention 这条高分辨率 3D 生成路线推进到更可扩展的阶段,而不追求全新的表示哲学。


核心问题

高分辨率 3D 生成常见的痛点是:

  • 3D token 一多,注意力成本爆炸
  • dense voxel/SDF 路线很难 scale
  • 即使结构基本正确,局部边缘、锐角、薄结构也容易糊或碎

Direct3D-S2 的目标可以概括成:

在保留 sparse SDF 几何表达能力的同时,解决高分辨率训练与建模成本问题。


方法直觉

它的核心由两部分组成:

1. Sparse SDF VAE (SS-VAE)

  • 用 sparse SDF 表示几何
  • 输入、latent、输出都保持 sparse volumetric format(统一稀疏表示)
  • 不再像一些早期方法那样在 point cloud / latent vec / dense volume 之间来回切换
  • 端到端 SDF 重建框架,训练更稳,高分辨率重建链条更直接

训练配置:

  • 多分辨率训练 \(\{256^3, 384^3, 512^3\}\),1 天 on 8×A100,batch 4/GPU,lr=1e-4
  • Fine-tune \(1024^3\),1 天,lr=1e-5,batch 1/GPU
  • 总计 2 天 on 8×A100(远少于同类方法通常需要的 32+ GPU)

2. Spatial Sparse Attention (SSA)

SSA 是本文的核心创新,由三个模块组成:

  • Sparse 3D Compression (\(m_{cmp}=4\)):将稀疏 token 按空间分块压缩,获取全局 attention scores
  • Spatial Blockwise Selection (\(m_{slc}=8\)):基于 attention scores 选择最相关的空间块
  • Sparse 3D Window (\(m_{win}=8\)):局部窗口内做精细 attention

三步协同使模型既能捕获全局上下文,又不会因 token 数量增长导致计算爆炸。

SSA 通过定制 Triton GPU kernel 实现,在 128K tokens 时:

  • Forward:3.9× 加速(vs FlashAttention-2)
  • Backward:9.6× 加速

SS-DiT 架构

组件 参数
DiT layers 24 层
Hidden dim 1024
Attention GQA,group=2,每组 16 heads,head dim 32
条件编码 DINOv2-Large,输入 518×518
训练策略 Progressive \(256^3 \to 1024^3\)

训练配置(Tab 1)

分辨率 平均 Token 数 LR Batch 时间
\(256^3\) ~2,058 1e-4 8×8 2 天
\(384^3\) ~5,510 1e-4 8×8 2 天
\(512^3\) ~10,655 5e-5 8×8 2 天
\(1024^3\) ~45,904 2e-5 2×8 1 天

总计 7 天 on 8×A100(另有 7 天训练 structure prediction DiT)。


实验结果

Image-to-3D 定量对比(Tab 2)

方法 ULIP-2 ↑ Uni3D ↑ OpenShape ↑
Trellis 0.2825 0.3755 0.1732
Hunyuan3D 2.0 0.2535 0.3738 0.1699
TripoSG 0.2626 0.3870 0.1728
Hi3DGen 0.2725 0.3723 0.1689
Direct3D-S2 0.3111 0.3931 0.1752

三项 image-shape alignment 指标均优于所有对比方法。

User Study

40 名参与者对 75 个 mesh 进行评分(1-5 分),Direct3D-S2 在 image consistency 和 overall quality 两个维度上均优于其他方法。

SSA Ablation

  • 仅用 window:局部细节好但表面不规则(缺少全局上下文)
  • 加 compression:变化不大,主要为 selection 提供 attention scores
  • 加 selection:模型聚焦于全局重要区域,mesh 质量明显提升
  • Full attention baseline:因被迫 packing tokens 导致高频表面伪影

优势与局限

优势

  • 延续 sparse SDF 的几何表达能力
  • SSA 使高分辨率 3D DiT 训练实际可行
  • 仅 8×A100 即可训练 \(1024^3\) 生成模型
  • 统一 sparse volumetric format 提升训练稳定性

局限

  • 仍然依赖 field -> mesh 的恢复链条
  • 对开放表面 / 原生 mesh 结构的表达不如 O-Voxel / FACE 路线自然
  • SSA forward 加速比 (3.9×) 小于 backward (9.6×),主要受 top-k sorting 开销限制
  • 依赖定制 Triton kernel,工程实现门槛不低

一句话总结

Direct3D-S2 的意义,在于把 Sparse SDF VAE + Spatial Sparse Attention 这条路线向高分辨率、可扩展的 3D 生成系统推进了一步,用仅 8 GPU 实现了 \(1024^3\) gigascale 3D 生成,是 sparse volumetric latent 路线中的关键工程推进节点。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部