跳转至

Steer3D

Steer3D: Feed-Forward 3D Editing via ControlNet-Style Bypass on TRELLIS Backbone (2025.12)

Overview

Steer3D 的设计思路很直接:不要从零训练一个 3D 编辑模型,而是给已有的 Image-to-3D 模型加上"文本可操控性"。具体做法是在 TRELLIS 骨干上接入零初始化的 ControlNet 旁路,使预训练的 3D 生成能力可以被编辑指令引导,实现前馈式、11.8 秒完成的 3D 编辑。


核心思想:ControlNet 式旁路注入

传统思路是训练一个独立的 3D 编辑模型——这既昂贵又容易破坏预训练模型已经学到的 3D 先验。Steer3D 换了一种方式:

冻住 TRELLIS 基础模型,只训练一个轻量的 ControlNet 旁路模块,让编辑文本指令通过旁路注入到生成流程中。

这和 2D 领域 ControlNet 的哲学完全一致:保留主干的生成能力,用旁路注入新的条件控制。区别在于这里的“条件”换成了 3D 编辑指令,不再是边缘图或深度图。


架构设计

基础模型:TRELLIS

TRELLIS 的生成流程分为两个阶段,每个阶段各有一个 24 层的 Sparse Flow Transformer:

  • Stage 1:稀疏结构生成(几何骨架)
  • Stage 2:结构化潜变量生成(纹理与细节)

详见 TRELLIS 分析

ControlNet 旁路模块

对 TRELLIS 的每个 Transformer Block,Steer3D 添加一个并行的 ControlNet Block:

输入 (编辑前 3D latent) │ ├──→ Base Block (TRELLIS, 冻结)──→ base_output │ └──→ ControlNet Block ──→ cross-attention (编辑文本) ──→ zero-init projection ──→ ctrl_output │ 最终输出 = base_output + ctrl_output (element-wise sum)

关键设计细节:

组件 说明
ControlNet Block 基础 Block 的完整拷贝
Cross-Attention 引入编辑文本条件,让旁路"读懂"编辑指令
Zero-Initialized Projection 训练初始时旁路输出为零,不破坏基础模型行为
基础模型 全程冻结,不更新任何参数

这种设计保证了训练开始时 Steer3D 的行为和原始 TRELLIS 完全一致,随着训练推进旁路逐步学会注入编辑信号。


数据引擎:96K 高质量编辑对

高质量的 3D 编辑数据是稀缺资源。Steer3D 构建了一套完整的自动化数据生成管线。

数据生成流程

Objaverse 16K 资产 ↓ 随机旋转(多样化视角) ↓ GPT-4o-mini 生成 20 条编辑指令/资产(添加/移除/纹理) ↓ Step1X-Edit 执行 2D 编辑 ↓ Hunyuan3D 2.1 重建 3D ↓ 初始数据集:320K 对(耗费 2500 H100 GPU 小时) ↓ 两阶段质量过滤(移除约 70%) ↓ 最终数据集:96K 对

两阶段过滤(关键步骤)

初始 320K 对中有大量低质量样本,Steer3D 设计了两道独立的过滤机制:

第一阶段:Dual-LLM 语义正确性检查

LLM₁ (不给编辑指令, 只给编辑前后图像) → 描述视觉差异 LLM₂ (不给图像, 只给 LLM₁ 的描述 + 原始编辑指令) → 判断是否对齐

这个设计的关键在于:通过信息隔离,迫使整个判断链路依赖于视觉事实而非指令暗示,有效过滤"编辑名不副实"的样本。

第二阶段:DreamSim 感知一致性过滤

对 3D 重建结果的渲染图与 2D 编辑结果计算 DreamSim 感知相似度,过滤掉重建质量低的样本(3D 重建未能忠实还原 2D 编辑效果的情况)。


训练策略

预对齐微调

在正式编辑训练之前,先用 Hunyuan3D 2.1 的输出对 TRELLIS 做监督微调(SFT),目的是对齐两者之间的空间尺度差异。这一步消除了因为数据源空间分布不同带来的系统性偏差。

两阶段训练

阶段 方法 目的
Stage 1 监督 Flow Matching (SFT) 学习基本的编辑能力
Stage 2 DPO (Direct Preference Optimization) 防止陷入"不编辑"的局部最优

DPO 的必要性

纯 SFT 训练容易陷入一个局部最优:模型学会"什么都不改"来最小化损失。因为不编辑时几何和纹理的重建误差最低,这对模型来说是一个"安全"但无用的解。

DPO 的构造方式:

  • 正样本(chosen):Ground truth 编辑结果
  • 负样本(rejected):编辑前的原始资产(即"没有执行编辑"的结果)

这迫使模型必须学会"做出改变"才能获得更高奖励。

训练细分

编辑类型 训练配置
几何添加 / 几何移除 分开训练,仅 SFT,不使用 DPO
纹理编辑 使用 DPO + CFG(text dropout 0.2)

整体训练在 6× A100 GPU 上完成。


实验结果

定量对比

Steer3D 在所有指标上领先:

编辑类型 F1 提升 CD 下降 LPIPS 下降
几何编辑 +64% -63% -53%
纹理编辑 +113% -55% -43%

以上均为相对于第二名方法的改进幅度。

推理速度

11.8 秒完成一次 3D 编辑,是所有对比方法中最快的,比第二快方法快 2.4 倍,比最慢方法快 28.5 倍。

EDIT3D-BENCH

Steer3D 同时提出了 EDIT3D-BENCH,包含 250 个人工验证的测试对象:

  • 150 个纹理编辑
  • 50 个几何添加
  • 50 个几何移除

消融实验

消融实验验证了几个关键设计决策:

消融项 结果 结论
DPO "不编辑"失败率从 18.67% 降至 10.67% DPO 有效缓解"什么都不改"的局部最优
直接微调 DiT vs ControlNet 旁路 LPIPS 从 0.1985 恶化到 0.238 直接微调会破坏预训练 3D 先验,验证了 ControlNet 路线的必要性
数据过滤 去除过滤后性能明显下降 高质量数据对编辑模型很重要

总结与定位

Steer3D 在方法谱系中属于 Control-style native editing 路线(参见 Mesh Editing Landscape)。它的贡献在于:

  1. 证明了 ControlNet 范式在 3D 编辑中的有效性:冻结主干 + 旁路注入,比直接微调更安全
  2. 构建了可复用的数据引擎:96K 高质量编辑对,双阶段过滤机制值得参考
  3. DPO 解决"不编辑"问题:这个训练技巧对所有 3D 编辑方法都有启发意义
  4. 速度优势明显:11.8 秒的前馈推理使其具备实际部署潜力

主要局限在于:作为前馈式方法,它实质上更接近"条件生成"而非"精确编辑"——对非编辑区域的一致性保持没有显式机制保障,这也是当前 Control-style 路线需要持续解决的问题。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部