Easy3E¶
Easy3E: Easy and Efficient 3D Editing (2026.02) — 基于 TRELLIS 骨干的全前馈单视图 3D 编辑流水线

Easy3E 的主要贡献是把单视图 3D 编辑分解为两个清晰阶段:几何编辑(Voxel FlowEdit) 和 纹理精修(ERA3D)。整个流程完全前馈,不需要逐样本优化,75 秒内完成一次编辑。
这篇工作之所以值得细看,除了指标领先,更因为它在 TRELLIS 的结构化隐空间里系统地处理了编辑轨迹漂移问题——这正是此前 training-free 3D 编辑方法普遍忽略的难点。
Stage 1:Voxel FlowEdit — 主要设计¶
Voxel FlowEdit 是 Easy3E 的主要技术贡献,在 TRELLIS 的 SLAT 结构化隐空间中直接完成几何编辑。
编辑空间¶
编辑操作发生在 TRELLIS 的 SLAT 表示上:
其中 \(V\) 是稀疏体素结构,\(\{z_p\}\) 是每个活动体素的局部隐变量。相比在 2D 上编辑后再提升到 3D 的方法,直接在 3D 隐空间操作从设计上避免了多视图不一致问题。
基础 ODE¶
编辑被建模为隐空间中的连续轨迹。基础更新规则:
- \(M_t\):可编辑区域掩码,将修改严格约束在目标区域内
- \(v_{\text{edit}}\):编辑速度场,定义为源与目标的速度差
编辑速度场的具体形式:
这个设计的直觉是:目标条件下的流与源条件下的流之差,正好编码了"从源到目标需要做什么改变"。
两个正则化项¶
仅靠基础 ODE 会导致编辑轨迹偏离数据流形,产生结构坍塌。Easy3E 引入两个正则化机制来解决这一问题:
1. 轮廓引导(Silhouette Guidance)
其中 \(S(x)\) 是当前状态的可微轮廓渲染,\(M_{\text{sil}}\) 是目标轮廓掩码。这一项的作用是:驱动结构变化去匹配目标的整体轮廓,防止几何在编辑过程中飘散到不合理的位置。
2. 轨迹一致性修正(Trajectory Consistency Correction)
这一项将当前状态投射回插值流形。直觉是:在每一步都检查"从当前状态预测的终点"与"应有终点"之间的偏差,并做修正。没有这个修正,累积误差会让轨迹越走越偏。
完整更新公式¶
把上述所有项合并:
- \(\Gamma\):轨迹一致性修正的权重
- \(\eta\):轮廓引导的权重
采样配置¶
| 参数 | 值 |
|---|---|
| CFG scale(目标) | 5–15 |
| CFG scale(源) | 5 |
| 采样步数 | 25 |
| \(n_{\text{avg}}\) | \(\{2, 4\}\) |
SLAT Repainting:局部隐变量更新¶
Voxel FlowEdit 完成宏观结构编辑后,还需要更新每个体素的局部隐变量 \(z_p\)。SLAT Repainting 对编辑区域和未编辑区域采用不同策略:
| 区域 | 策略 |
|---|---|
| 编辑区域 | 施加速度场进行精修——让局部隐变量与新的几何结构对齐 |
| 未编辑区域 | 重放源轨迹的前向扩散过程——确保非编辑部分完全保持不变 |
| 边界区域 | 高斯模糊软掩码——实现编辑与未编辑区域之间的平滑过渡 |
这种分区策略是解决"编辑泄露"问题的直接方案。通过边界处的软掩码,避免了硬切换带来的接缝伪影。
Stage 2:纹理精修 via ERA3D¶
Stage 1 产出的几何已经足够准确,但纹理缺乏高频细节。Stage 2 利用多视图生成来补全纹理信息。
架构:双分支设计¶
控制分支(Control Branch)
- 冻结的 ControlNet + 可训练的 Ctrl-Adapter
- 输入:编辑后几何的法线图
- 输出:几何感知的控制特征
- 只有 Ctrl-Adapter 需要训练,降低训练成本
生成分支(Generation Branch)
- 输入:编辑后的图像 + 控制分支提取的特征
- 输出:6 个几何一致的辅助视角图像
纹理融合¶
6 个辅助视图通过可见性感知、掩码加权的投影融合到 UV 纹理空间。具体来说:
- 每个视角根据其对每个面的可见性进行加权
- 编辑区域掩码确保只在需要更新的区域施加新纹理
- 最终投射到 UV 贴图上
这一步对最终视觉质量很重要——消融实验表明,去掉纹理精修后高频细节会明显退化。
实验结果¶
定量对比¶
| 指标 | Easy3E | 备注 |
|---|---|---|
| CLIP-T | 0.326 | 文本-编辑一致性(较优) |
| DINO-I | 0.952 | 图像语义保持(较优) |
| LPIPS | 0.138 | 感知相似度(较优) |
| FID | 25.8 | 生成质量(较优) |
| 运行时间 | 75 秒 | 完全前馈 |
四个核心指标均为较优,同时保持 75 秒的前馈推理速度。
用户研究¶
在 5 个评估维度上,88–97% 的用户偏好 Easy3E。这个偏好率的一致性说明改进不只体现在某个特定方面,而是多维度的。
消融分析¶
消融实验揭示了两个关键发现:
正则化的必要性¶
同时移除轮廓引导和轨迹一致性修正 → 结构坍塌。
这验证了前面的分析:仅靠基础编辑速度场不足以维持稳定的编辑轨迹。两个正则化项是流程正常工作的必要条件,不是锦上添花。
纹理精修的必要性¶
移除 Stage 2 → 高频细节明显退化。
Stage 1 的 Voxel FlowEdit 擅长几何和宏观外观,但在纹理的高频细节上力不从心。两阶段设计是合理的分工:几何归几何,纹理归纹理。
方法定位¶
在 Mesh Editing Landscape 的分类中,Easy3E 属于"Control-style native editing" 子路线:
- 在 TRELLIS 的原生 3D 隐空间中直接编辑,而非先在 2D 做编辑再提升
- 完全前馈,无需逐样本优化
- 通过 ControlNet 式的控制机制引入纹理精修
与同样基于 TRELLIS 的 VoxHammer(training-free latent editing)和 NANO3D 相比,Easy3E 的主要区别在于:它进一步显式建模了编辑轨迹的动力学,并通过两个正则化项保证轨迹不偏离流形。相比只做隐空间反演和替换,这使得它在较大幅度几何编辑时的稳定性明显更好。