Easy3E¶

Easy3E: Easy and Efficient 3D Editing (2026.02) — 基于 TRELLIS 骨干的全前馈单视图 3D 编辑流水线

Overview

Easy3E 的主要贡献是把单视图 3D 编辑分解为两个清晰阶段：几何编辑（Voxel FlowEdit） 和 纹理精修（ERA3D）。整个流程完全前馈，不需要逐样本优化，75 秒内完成一次编辑。

这篇工作之所以值得细看，除了指标领先，更因为它在 TRELLIS 的结构化隐空间里系统地处理了编辑轨迹漂移问题——这正是此前 training-free 3D 编辑方法普遍忽略的难点。

Stage 1：Voxel FlowEdit — 主要设计¶

Voxel FlowEdit 是 Easy3E 的主要技术贡献，在 TRELLIS 的 SLAT 结构化隐空间中直接完成几何编辑。

编辑空间¶

编辑操作发生在 TRELLIS 的 SLAT 表示上：

\[ Z = (V, \{z_p\}) \]

其中 \(V\) 是稀疏体素结构，\(\{z_p\}\) 是每个活动体素的局部隐变量。相比在 2D 上编辑后再提升到 3D 的方法，直接在 3D 隐空间操作从设计上避免了多视图不一致问题。

基础 ODE¶

编辑被建模为隐空间中的连续轨迹。基础更新规则：

\[ dx_t = M_t \odot v_{\text{edit}}(x_t, t) \, dt \]

\(M_t\)：可编辑区域掩码，将修改严格约束在目标区域内
\(v_{\text{edit}}\)：编辑速度场，定义为源与目标的速度差

编辑速度场的具体形式：

\[ v_{\text{edit}} = v_\theta(x_t^{\text{tgt}}, t \mid I^{\text{tgt}}) - v_\theta(x_t^{\text{src}}, t \mid I^{\text{src}}) \]

这个设计的直觉是：目标条件下的流与源条件下的流之差，正好编码了"从源到目标需要做什么改变"。

两个正则化项¶

仅靠基础 ODE 会导致编辑轨迹偏离数据流形，产生结构坍塌。Easy3E 引入两个正则化机制来解决这一问题：

1. 轮廓引导（Silhouette Guidance）

\[ G_{\text{sil}} = -\nabla_x \text{BCE}(S(x), M_{\text{sil}}) \]

其中 \(S(x)\) 是当前状态的可微轮廓渲染，\(M_{\text{sil}}\) 是目标轮廓掩码。这一项的作用是：驱动结构变化去匹配目标的整体轮廓，防止几何在编辑过程中飘散到不合理的位置。

2. 轨迹一致性修正（Trajectory Consistency Correction）

\[ \xi_{\text{traj}} = \hat{x}_{0|t}^{\text{tgt}} - \hat{x}_{0|t}^{\text{src}} \]

这一项将当前状态投射回插值流形。直觉是：在每一步都检查"从当前状态预测的终点"与"应有终点"之间的偏差，并做修正。没有这个修正，累积误差会让轨迹越走越偏。

完整更新公式¶

把上述所有项合并：

\[ dx_t = M_t \odot v_{\text{edit}} \, dt + M_t \odot (\Gamma \cdot \xi_{\text{traj}} - \eta \cdot G_{\text{sil}}) \, dt \]

\(\Gamma\)：轨迹一致性修正的权重
\(\eta\)：轮廓引导的权重

采样配置¶

参数	值
CFG scale（目标）	5–15
CFG scale（源）	5
采样步数	25
\(n_{\text{avg}}\)	\(\{2, 4\}\)

SLAT Repainting：局部隐变量更新¶

Voxel FlowEdit 完成宏观结构编辑后，还需要更新每个体素的局部隐变量 \(z_p\)。SLAT Repainting 对编辑区域和未编辑区域采用不同策略：

区域	策略
编辑区域	施加速度场进行精修——让局部隐变量与新的几何结构对齐
未编辑区域	重放源轨迹的前向扩散过程——确保非编辑部分完全保持不变
边界区域	高斯模糊软掩码——实现编辑与未编辑区域之间的平滑过渡

这种分区策略是解决"编辑泄露"问题的直接方案。通过边界处的软掩码，避免了硬切换带来的接缝伪影。

Stage 2：纹理精修 via ERA3D¶

Stage 1 产出的几何已经足够准确，但纹理缺乏高频细节。Stage 2 利用多视图生成来补全纹理信息。

架构：双分支设计¶

控制分支（Control Branch）

冻结的 ControlNet + 可训练的 Ctrl-Adapter
输入：编辑后几何的法线图
输出：几何感知的控制特征
只有 Ctrl-Adapter 需要训练，降低训练成本

生成分支（Generation Branch）

输入：编辑后的图像 + 控制分支提取的特征
输出：6 个几何一致的辅助视角图像

纹理融合¶

6 个辅助视图通过可见性感知、掩码加权的投影融合到 UV 纹理空间。具体来说：

每个视角根据其对每个面的可见性进行加权
编辑区域掩码确保只在需要更新的区域施加新纹理
最终投射到 UV 贴图上

这一步对最终视觉质量很重要——消融实验表明，去掉纹理精修后高频细节会明显退化。

实验结果¶

定量对比¶

指标	Easy3E	备注
CLIP-T	0.326	文本-编辑一致性（较优）
DINO-I	0.952	图像语义保持（较优）
LPIPS	0.138	感知相似度（较优）
FID	25.8	生成质量（较优）
运行时间	75 秒	完全前馈

四个核心指标均为较优，同时保持 75 秒的前馈推理速度。

用户研究¶

在 5 个评估维度上，88–97% 的用户偏好 Easy3E。这个偏好率的一致性说明改进不只体现在某个特定方面，而是多维度的。

消融分析¶

消融实验揭示了两个关键发现：

正则化的必要性¶

同时移除轮廓引导和轨迹一致性修正 → 结构坍塌。

这验证了前面的分析：仅靠基础编辑速度场不足以维持稳定的编辑轨迹。两个正则化项是流程正常工作的必要条件，不是锦上添花。

纹理精修的必要性¶

移除 Stage 2 → 高频细节明显退化。

Stage 1 的 Voxel FlowEdit 擅长几何和宏观外观，但在纹理的高频细节上力不从心。两阶段设计是合理的分工：几何归几何，纹理归纹理。

方法定位¶

在 Mesh Editing Landscape 的分类中，Easy3E 属于"Control-style native editing" 子路线：

在 TRELLIS 的原生 3D 隐空间中直接编辑，而非先在 2D 做编辑再提升
完全前馈，无需逐样本优化
通过 ControlNet 式的控制机制引入纹理精修

与同样基于 TRELLIS 的 VoxHammer（training-free latent editing）和 NANO3D 相比，Easy3E 的主要区别在于：它进一步显式建模了编辑轨迹的动力学，并通过两个正则化项保证轨迹不偏离流形。相比只做隐空间反演和替换，这使得它在较大幅度几何编辑时的稳定性明显更好。