VoxHammer¶
VoxHammer: Training-Free 3D Editing via DDIM Inversion and KV Cache Replacement on TRELLIS

VoxHammer(2025.08)是首批基于 TRELLIS 骨干的 training-free 3D 编辑方法之一。核心思路是将成熟的 2D 扩散反演编辑范式(DDIM Inversion + Controlled Denoising)搬到 TRELLIS 的 3D 结构化潜空间中,并通过 KV Cache Replacement 机制解决编辑泄漏问题,实现精确的局部编辑与全局保留。同时提出 Edit3D-Bench 评估基准,为 3D 编辑领域建立了系统化的三维评估框架。
核心思想¶
VoxHammer 要回答的关键问题是:
如何在不训练任何额外模块的前提下,利用预训练 TRELLIS 对已有 3D 资产进行精确局部编辑?
思路很直接:
- 对原始 3D 资产做 DDIM 反演,得到终端噪声 + 每个时间步的中间状态缓存
- 用编辑后的 2D 图像作为新条件,对终端噪声重新去噪
- 在去噪过程中,用缓存的原始信息强制替换未编辑区域的特征,防止编辑区域的修改"泄漏"到其他位置
这实质上是将 P2P(Prompt-to-Prompt)系列方法的 attention manipulation 思想,从 2D 扩散模型扩展到 TRELLIS 的 3D 稀疏 Flow Transformer。
整体流程¶
VoxHammer 的流程严格遵循 TRELLIS 的两阶段架构:
text
原始 3D 资产
↓
TRELLIS Encoder → SLAT 表示 z = {(z_i, p_i)}
↓
[Stage 1: 结构 (ST) 阶段]
DDIM Inversion → 终端噪声 z_T^ST + KV/Latent Cache
Controlled Denoising (新条件) + KV/Latent Replacement → 编辑后结构 {p_i'}
↓
[Stage 2: 稀疏潜变量 (SLAT) 阶段]
DDIM Inversion → 终端噪声 z_T^SLAT + KV/Latent Cache
Controlled Denoising (新条件) + KV/Latent Replacement → 编辑后 SLAT
↓
TRELLIS Decoder → 编辑后 3D 资产 (Mesh / 3DGS)
两个阶段各自独立完成反演→缓存→替换的全套流程。
关键技术一:DDIM Inversion + RF-Solver¶
为什么需要精确反演¶
DDIM Inversion 的目标是从干净的潜变量 \(z_0\) 出发,反推出对应的终端噪声 \(z_T\),使得从 \(z_T\) 重新去噪能精确恢复 \(z_0\)。
但 TRELLIS 使用的是 Rectified Flow,标准 DDIM 反演在离散采样步数有限时会累积数值误差,导致反演不精确 → 重建漂移 → 编辑区域与未编辑区域对不上。
RF-Solver¶
VoxHammer 采用 RF-Solver 提升反演精度:
- 对 ODE 轨迹使用 二阶 Taylor 展开,减少每步离散化的截断误差
- 相比一阶 Euler 方法,在相同步数下重建保真度有明显提升
CFG 策略¶
反演阶段的 Classifier-Free Guidance(CFG)策略:
| 时间区间 | CFG 状态 | 原因 |
|---|---|---|
| \(t \in [0.0, 0.5)\) | 关闭 | 早期保持可逆性,避免 CFG 引入不可逆偏差 |
| \(t \in [0.5, 1.0]\) | 开启 | 后期需要语义清晰度,平衡条件对齐 |
这种分段策略在可逆性与语义清晰度之间取得了平衡。
关键技术二:KV Cache Replacement¶
这是 VoxHammer 的主要创新点。
问题¶
在 TRELLIS 的 Sparse Flow Transformer 中,self-attention 是全局的——编辑区域的 token 会通过注意力机制影响到所有其他 token。即使只修改了一个区域的条件,整个模型的注意力分布都会被扰动,导致未编辑区域也发生变化。
解决方案¶
在反演阶段,缓存每个时间步、每一层的 attention KV 值:
在去噪阶段,对于未编辑区域的 token:
- 不使用当前去噪过程计算出的 KV
- 直接替换为缓存中对应时间步、对应层的原始 KV 值
这确保了未编辑区域的 token 在注意力计算中"看到的"与原始资产完全一致,从而阻断了编辑信号的泄漏路径。
数学表述¶
设 \(M\) 为 3D mask(1 = 编辑区域,0 = 保留区域),去噪时间步 \(t\),第 \(l\) 层:
其中 \(\hat{K}, \hat{V}\) 为当前去噪计算的值,\(K_{\text{cache}}, V_{\text{cache}}\) 为反演阶段缓存的值。
关键技术三:Latent Replacement + 软掩码¶
除了 KV 替换外,VoxHammer 还在潜变量层面进行替换:
- 在每个时间步,将未编辑区域的潜变量直接用缓存的原始值替换
- 在编辑区域与保留区域的边界处,使用 Gaussian Blur 生成软掩码,平滑过渡
其中 \(M_{\text{soft}}\) 是经过高斯模糊的 3D mask。这避免了硬边界导致的接缝伪影。
Edit3D-Bench 评估基准¶
VoxHammer 不只是一个编辑方法,还提出了一套系统化的 3D 编辑评估框架。
数据构成¶
| 来源 | 数量 | 说明 |
|---|---|---|
| GSO (Google Scanned Objects) | 50 | 真实扫描物体 |
| PartObjaverse-Tiny | 50 | 合成物体,带部件分割 |
| 总计 | 100 模型 | 每模型 3 种编辑 = 300 编辑任务 |
每个编辑任务附带:3D mask、对应 2D mask、FLUX.1 Fill 生成的编辑后参考图像。
三维评估体系¶
| 维度 | 指标 | 衡量目标 |
|---|---|---|
| 保留度 | Masked CD, PSNR, SSIM, LPIPS | 未编辑区域是否完好保持 |
| 整体质量 | FID, FVD, User Study | 编辑后资产的整体视觉质量 |
| 条件对齐 | DINO-I, CLIP-T | 编辑结果是否匹配参考图像 / 文本 |
这套三维度指标体系弥补了以往 3D 编辑工作评估不统一的问题。
实验结果¶
定量比较¶
VoxHammer 与五个基线方法在 Edit3D-Bench 上的比较:
| 方法 | 保留度 | 整体质量 | 条件对齐 | 备注 |
|---|---|---|---|---|
| Vox-E | 弱 | 弱 | 弱 | 优化式,NeRF 表示 |
| MVEdit | 中 | 中 | 中 | 2D lifting |
| Tailor3D | 中 | 中 | 中 | 双视图 |
| Instant3DiT | 中 | 中 | 中 | — |
| TRELLIS Inpainting | 中 | 较强 | 较强 | 原生 inpainting 模式 |
| VoxHammer | 强 | 强 | 强 | 全指标最优 |
用户研究¶
| 对比 | VoxHammer 偏好率 |
|---|---|
| vs 排名第二的 2D-lifting 基线 | 70.3% |
| vs TRELLIS Inpainting | 81.2% |
消融实验¶
| 配置 | 效果 |
|---|---|
| 移除 KV Cache Replacement | 保留度明显下降,编辑泄漏明显 |
| 随机噪声初始化(不做反演) | 空间漂移,编辑区域位置不准确 |
| 移除 Latent Replacement | 边界处出现伪影 |
| 完整 VoxHammer | 最优 |
优势与局限¶
优势¶
- Training-free:直接复用预训练 TRELLIS,无需额外训练数据或微调
- 保留度强:KV Cache + Latent Replacement 双重机制确保未编辑区域高保真
- 系统化评估:Edit3D-Bench 为后续工作提供统一基准
- 工程友好:单张 A100 GPU,25 步采样即可完成
局限¶
- 需要用户提供 3D mask:不像 3DEditVerse / Steer3D 等方法可以自动定位编辑区域
- 间接依赖 2D 编辑:需要先通过 FLUX.1 Fill 等工具在 2D 生成编辑后的参考图像
- 反演精度上限:尽管使用了 RF-Solver,离散化误差仍不可完全消除,编辑幅度越大,累积偏差越明显
- 受限于 TRELLIS 能力边界:TRELLIS 本身的几何/纹理表达能力决定了 VoxHammer 的上限
在编辑方法谱系中的位置¶
VoxHammer 属于 Tuning-free Latent Editing 路线:
- 与 NANO3D 同属 training-free 阵营,但技术路线不同(VoxHammer 用 DDIM Inversion,NANO3D 用 FlowEdit)
- 与 3DEditVerse / Steer3D 的区别在于不需要训练,但灵活性和上限可能受限
- 其 KV Cache Replacement 思想与 2D 领域的 P2P / MasaCtrl 一脉相承,是将 2D attention manipulation 技术成功迁移到 3D 的代表
一句话总结¶
VoxHammer 的主要贡献是证明了"DDIM 反演 + KV Cache 替换"这套 2D 扩散编辑范式可以直接迁移到 TRELLIS 的 3D 结构化潜空间中,在不训练任何额外参数的前提下实现高保真的局部 3D 编辑。