跳转至

NANO3D

NANO3D: Training-Free 3D Editing Framework (2025.10)

Overview

NANO3D 是基于 TRELLIS 骨干的 training-free 3D 编辑框架。与同样基于 TRELLIS 的 VoxHammer 不同,NANO3D 放弃了 DDIM 反演路线,转而采用 FlowEdit(无反演的流编辑算法)作为核心扩散编辑手段,并提出 Voxel-MergeSlat-Merge 两个显式融合机制,分别在结构层和外观层精确控制编辑区域。此外,NANO3D 还构建了 Nano3D-Edit-100k 大规模编辑数据集,为后续监督式 3D 编辑方法提供数据基础。


核心思想

NANO3D 的设计出发点是:

在 TRELLIS 的两阶段生成流程(结构生成 → 潜变量生成)中,分别插入精确的融合操作,使编辑区域被精准替换,非编辑区域完全保留。

关键技术选择是用 FlowEdit 替代 DDIM 反演。FlowEdit 构建从源分布到目标分布的直接编辑路径,不需要先将源数据反演回噪声空间再重新去噪,因此能更好地保留原始结构信息。

与 VoxHammer 的路线对比:

维度 VoxHammer NANO3D
扩散编辑算法 DDIM 反演 + 条件去噪 FlowEdit(无反演)
未编辑区保护 KV Cache Replacement Voxel-Merge + Slat-Merge
融合层级 注意力特征层 体素结构层 + 潜变量层
掩码来源 用户提供 3D 掩码 自动计算(XOR + 连通域过滤)

方法:两阶段编辑流程

Stage 1:Voxel-based Structural Edit(体素结构编辑)

在 TRELLIS 的第一阶段(稀疏结构生成)中,对体素空间施加 FlowEdit,得到编辑后的目标体素结构,然后通过 Voxel-Merge 将编辑精确移植到原始结构中。

Voxel-Merge 流程

源体素 V_src ⊕ 目标体素 V_tgt → XOR 差异体素集合 ↓ 连通域分析(connected components) ↓ 按体积阈值 τ 过滤小连通域(噪声) ↓ 得到 flip mask M ↓ 在 M 标记的区域:翻转体素占用状态(transplant) ↓ 融合后体素 V_merged

核心思想:通过 XOR 运算找到源和目标之间的所有差异体素,再通过连通域分析 + 体积阈值过滤掉因扩散过程引入的零散噪声,只保留有意义的编辑区域。最终得到的 flip mask \(M\) 精确定义了"哪些体素需要改变"。

阈值 \(\tau\):控制连通域的最小体积。\(\tau = 100\) 为较优值——太小会引入噪声碎片,太大会过滤掉合理的小编辑。

Stage 2:Latent-based Appearance Edit(潜变量外观编辑)

在 TRELLIS 的第二阶段(SLAT 潜变量生成)中,用编辑后的条件生成新的 SLat 特征,然后通过 Slat-Merge 精细混合。

Slat-Merge 流程

复用 Stage 1 产生的 mask \(M\)

\[ z_{\text{merged}}^i = \begin{cases} z_{\text{new}}^i & \text{if } p_i \in M \\ z_{\text{src}}^i & \text{if } p_i \notin M \end{cases} \]
  • \(M\) 标记的编辑区域:使用新生成的 SLat 特征
  • \(M\) 之外的未编辑区域:完全保留原始 SLat 特征

这一步确保了未编辑区域不仅在几何结构上不变,外观细节也完全一致。


技术特点

1. FlowEdit 替代 DDIM 反演

DDIM 反演的主要问题在于:反演过程本身会引入累积误差,导致重建出的噪声潜变量无法准确还原源数据。FlowEdit 绕过了这个问题:

  • 构建 source → target 的直接编辑路径
  • 不经过"source → noise → target"的迂回
  • 原始结构信息保留更完整

2. 自动掩码生成

与 VoxHammer 要求用户提供 3D 掩码不同,NANO3D 通过 XOR + 连通域过滤自动识别编辑区域,降低了用户交互成本。

3. Nano3D-Edit-100k 数据集

构建了超过 100K 编辑三元组 (source 3D, instruction, target 3D) 的大规模数据集,为监督式 3D 编辑方法提供训练数据。

数据构建流水线

Trellis-500K / Objaverse 采样 ↓ VLM (Qwen-VL-2.5) 生成编辑指令 ↓ TRELLIS 重建源 3D ↓ 2D 编辑 (Nano-Banana / Flux-Kontext) ↓ NANO3D 框架生成目标 3D ↓ Qwen2.5 质量过滤 ↓ 最终编辑三元组

数据集构建使用 32 × A800 GPU


实验结果

定量比较

方法 CD ↓ DINO-I ↑ FID ↓
Tailor3D
Vox-E
TRELLIS
NANO3D 0.013 0.950 27.85

NANO3D 在所有三个指标上均取得较优结果:

  • CD (Chamfer Distance):几何保真度最高
  • DINO-I:语义一致性最好
  • FID:生成质量较优

用户研究

95% 的用户偏好 NANO3D 的形状保持效果,说明 Voxel-Merge + Slat-Merge 的显式融合策略在人类感知层面也优于基线方法。

消融实验

配置 效果
无 Merge 编辑后几何和外观均受损
仅 Voxel-Merge 几何结构修复,但外观细节仍有偏差
仅 Slat-Merge 外观改善,但几何不稳定
Voxel-Merge + Slat-Merge 几何和外观同时正确

消融结果表明两个 Merge 操作缺一不可:Voxel-Merge 解决结构问题,Slat-Merge 解决外观问题。

阈值 \(\tau\) 消融

\(\tau = 100\) 为较优阈值。低于 100 时噪声碎片影响融合质量,高于 100 时合理的小编辑区域被误过滤。


优势与局限

优势

  • Training-free:无需额外训练,直接利用预训练 TRELLIS 模型
  • FlowEdit 无反演:避免 DDIM 反演的累积误差,结构保留更好
  • 自动掩码:无需用户手动标注 3D 掩码,降低交互复杂度
  • 双层融合:结构层 + 外观层的显式融合,非编辑区保持性极强
  • 数据集贡献:100K+ 规模的编辑数据集,推动监督式方法发展

局限

  • 依赖 TRELLIS 骨干,编辑能力受限于 TRELLIS 的表示能力
  • 阈值 \(\tau\) 需要手动设定,对不同编辑类型的鲁棒性有待验证
  • Training-free 方法的编辑上限仍然受限于预训练模型,复杂编辑场景可能不如训练式方法
  • 仅编辑 Mesh 几何,纹理编辑能力未涉及

总结

NANO3D 在 TRELLIS 骨干上走出了一条与 VoxHammer 不同的 training-free 编辑路线:用 FlowEdit 替代 DDIM 反演避免累积误差,用 Voxel-Merge + Slat-Merge 的双层显式融合替代注意力层面的 KV Cache 替换。其主要价值不仅在于编辑方法本身,还在于 Nano3D-Edit-100k 数据集的构建——这一数据集为后续监督式 3D 编辑方法(如 3DEditVerse、Steer3D 等)提供了可能的训练数据来源,推动了整个 3D 编辑领域从 tuning-free tricks 向 data-driven learning 的转变。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部