跳转至

Easy3E

Easy3E: Easy and Efficient 3D Editing (2026.02) — 基于 TRELLIS 骨干的全前馈单视图 3D 编辑流水线

Overview

Easy3E 的主要贡献是把单视图 3D 编辑分解为两个清晰阶段:几何编辑(Voxel FlowEdit)纹理精修(ERA3D)。整个流程完全前馈,不需要逐样本优化,75 秒内完成一次编辑。

这篇工作之所以值得细看,除了指标领先,更因为它在 TRELLIS 的结构化隐空间里系统地处理了编辑轨迹漂移问题——这正是此前 training-free 3D 编辑方法普遍忽略的难点。


Stage 1:Voxel FlowEdit — 主要设计

Voxel FlowEdit 是 Easy3E 的主要技术贡献,在 TRELLIS 的 SLAT 结构化隐空间中直接完成几何编辑。

编辑空间

编辑操作发生在 TRELLIS 的 SLAT 表示上:

\[ Z = (V, \{z_p\}) \]

其中 \(V\) 是稀疏体素结构,\(\{z_p\}\) 是每个活动体素的局部隐变量。相比在 2D 上编辑后再提升到 3D 的方法,直接在 3D 隐空间操作从设计上避免了多视图不一致问题。

基础 ODE

编辑被建模为隐空间中的连续轨迹。基础更新规则:

\[ dx_t = M_t \odot v_{\text{edit}}(x_t, t) \, dt \]
  • \(M_t\):可编辑区域掩码,将修改严格约束在目标区域内
  • \(v_{\text{edit}}\):编辑速度场,定义为源与目标的速度差

编辑速度场的具体形式:

\[ v_{\text{edit}} = v_\theta(x_t^{\text{tgt}}, t \mid I^{\text{tgt}}) - v_\theta(x_t^{\text{src}}, t \mid I^{\text{src}}) \]

这个设计的直觉是:目标条件下的流与源条件下的流之差,正好编码了"从源到目标需要做什么改变"。

两个正则化项

仅靠基础 ODE 会导致编辑轨迹偏离数据流形,产生结构坍塌。Easy3E 引入两个正则化机制来解决这一问题:

1. 轮廓引导(Silhouette Guidance)

\[ G_{\text{sil}} = -\nabla_x \text{BCE}(S(x), M_{\text{sil}}) \]

其中 \(S(x)\) 是当前状态的可微轮廓渲染,\(M_{\text{sil}}\) 是目标轮廓掩码。这一项的作用是:驱动结构变化去匹配目标的整体轮廓,防止几何在编辑过程中飘散到不合理的位置。

2. 轨迹一致性修正(Trajectory Consistency Correction)

\[ \xi_{\text{traj}} = \hat{x}_{0|t}^{\text{tgt}} - \hat{x}_{0|t}^{\text{src}} \]

这一项将当前状态投射回插值流形。直觉是:在每一步都检查"从当前状态预测的终点"与"应有终点"之间的偏差,并做修正。没有这个修正,累积误差会让轨迹越走越偏。

完整更新公式

把上述所有项合并:

\[ dx_t = M_t \odot v_{\text{edit}} \, dt + M_t \odot (\Gamma \cdot \xi_{\text{traj}} - \eta \cdot G_{\text{sil}}) \, dt \]
  • \(\Gamma\):轨迹一致性修正的权重
  • \(\eta\):轮廓引导的权重

采样配置

参数
CFG scale(目标) 5–15
CFG scale(源) 5
采样步数 25
\(n_{\text{avg}}\) \(\{2, 4\}\)

SLAT Repainting:局部隐变量更新

Voxel FlowEdit 完成宏观结构编辑后,还需要更新每个体素的局部隐变量 \(z_p\)。SLAT Repainting 对编辑区域和未编辑区域采用不同策略:

区域 策略
编辑区域 施加速度场进行精修——让局部隐变量与新的几何结构对齐
未编辑区域 重放源轨迹的前向扩散过程——确保非编辑部分完全保持不变
边界区域 高斯模糊软掩码——实现编辑与未编辑区域之间的平滑过渡

这种分区策略是解决"编辑泄露"问题的直接方案。通过边界处的软掩码,避免了硬切换带来的接缝伪影。


Stage 2:纹理精修 via ERA3D

Stage 1 产出的几何已经足够准确,但纹理缺乏高频细节。Stage 2 利用多视图生成来补全纹理信息。

架构:双分支设计

控制分支(Control Branch)

  • 冻结的 ControlNet + 可训练的 Ctrl-Adapter
  • 输入:编辑后几何的法线图
  • 输出:几何感知的控制特征
  • 只有 Ctrl-Adapter 需要训练,降低训练成本

生成分支(Generation Branch)

  • 输入:编辑后的图像 + 控制分支提取的特征
  • 输出:6 个几何一致的辅助视角图像

纹理融合

6 个辅助视图通过可见性感知、掩码加权的投影融合到 UV 纹理空间。具体来说:

  • 每个视角根据其对每个面的可见性进行加权
  • 编辑区域掩码确保只在需要更新的区域施加新纹理
  • 最终投射到 UV 贴图上

这一步对最终视觉质量很重要——消融实验表明,去掉纹理精修后高频细节会明显退化。


实验结果

定量对比

指标 Easy3E 备注
CLIP-T 0.326 文本-编辑一致性(较优)
DINO-I 0.952 图像语义保持(较优)
LPIPS 0.138 感知相似度(较优)
FID 25.8 生成质量(较优)
运行时间 75 秒 完全前馈

四个核心指标均为较优,同时保持 75 秒的前馈推理速度。

用户研究

在 5 个评估维度上,88–97% 的用户偏好 Easy3E。这个偏好率的一致性说明改进不只体现在某个特定方面,而是多维度的。


消融分析

消融实验揭示了两个关键发现:

正则化的必要性

同时移除轮廓引导和轨迹一致性修正 → 结构坍塌。

这验证了前面的分析:仅靠基础编辑速度场不足以维持稳定的编辑轨迹。两个正则化项是流程正常工作的必要条件,不是锦上添花。

纹理精修的必要性

移除 Stage 2 → 高频细节明显退化。

Stage 1 的 Voxel FlowEdit 擅长几何和宏观外观,但在纹理的高频细节上力不从心。两阶段设计是合理的分工:几何归几何,纹理归纹理。


方法定位

Mesh Editing Landscape 的分类中,Easy3E 属于"Control-style native editing" 子路线:

  • 在 TRELLIS 的原生 3D 隐空间中直接编辑,而非先在 2D 做编辑再提升
  • 完全前馈,无需逐样本优化
  • 通过 ControlNet 式的控制机制引入纹理精修

与同样基于 TRELLIS 的 VoxHammer(training-free latent editing)和 NANO3D 相比,Easy3E 的主要区别在于:它进一步显式建模了编辑轨迹的动力学,并通过两个正则化项保证轨迹不偏离流形。相比只做隐空间反演和替换,这使得它在较大幅度几何编辑时的稳定性明显更好。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部