CraftMesh¶
CraftMesh: Training-Free High-Fidelity Mesh Editing via Image Editing and Poisson Fusion

CraftMesh(2025.09)是一种无需训练的显式网格编辑方法。其核心范式是 "图像编辑 → 网格生成 → 无缝融合":先通过 2D 图像编辑获取编辑意图,再用现成的 3D 生成模型重建编辑区域,最后通过两阶段 Poisson 融合将编辑后的几何与纹理无缝嵌入原始网格。全流程 inference-only,无需训练任何额外模块,在单张 4090 GPU 上约 5 分钟即可完成一次编辑。
核心思想¶
CraftMesh 要回答的关键问题是:
如何在显式网格(explicit mesh)表示下,实现高保真的局部编辑,同时确保编辑区域与原始区域之间几何和纹理的无缝过渡?
与基于隐式表示(NeRF / SDF / 3D 潜空间)的编辑方法不同,CraftMesh 直接操作三角网格,整个流程分为三步:
- 编辑区域网格生成:通过 2D 图像编辑 + 3D 重建获得编辑后的局部网格
- Poisson 几何融合:将编辑网格的几何无缝融入原始网格
- Poisson 纹理协调:消除融合边界处的颜色接缝,统一纹理风格
这套流程的设计思路是:Poisson 方程在 2D 图像编辑中被广泛用于无缝融合(如经典的 Poisson Image Editing),CraftMesh 将这一思想同时扩展到 3D 法线图域(几何融合)和网格表面颜色域(纹理协调),实现了几何与纹理的双重无缝过渡。
第一步:编辑区域网格生成¶
这一步的目标是根据文本指令生成编辑区域的 3D 网格。
流程¶
text
原始网格 M
↓ 渲染
参考视角图像 I_ref
↓ FLUX Kontext (文本指令)
编辑后参考图像 I_edit
↓ 前后对比,提取差异
编辑区域图像 I_region
↓ CraftsMan3D
两个网格:M_e(全局结构)+ M_r(局部细节)
关键设计¶
| 步骤 | 模型 | 作用 |
|---|---|---|
| 图像编辑 | FLUX Kontext | 根据文本指令编辑参考图像,生成 \(I_{\text{edit}}\) |
| 区域提取 | 前后图像对比 | 比较 \(I_{\text{ref}}\) 和 \(I_{\text{edit}}\),提取变化区域 \(I_{\text{region}}\) |
| 全图重建 | CraftsMan3D | 输入 \(I_{\text{edit}}\),生成 \(M_e\)——全局结构准确,但局部细节可能不足 |
| 区域重建 | CraftsMan3D | 输入 \(I_{\text{region}}\),生成 \(M_r\)——局部细节丰富,但缺乏全局上下文 |
为什么需要两个网格?\(M_e\) 提供正确的全局空间关系和整体结构,\(M_r\) 提供编辑区域的高质量局部细节。后续的融合步骤会将两者的优势结合起来。
第二步:Poisson 几何融合(主要设计)¶
这是 CraftMesh 的主要技术贡献。目标是将编辑区域网格无缝嵌入原始网格,消除几何过渡处的不连续。
粗融合¶
首先通过 Mesh Boolean 运算(并集/差集)将编辑网格与原始网格合并,得到过渡网格 \(M_t\)。此时 \(M_t\) 在融合边界处存在明显的几何不连续。
混合 SDF/Mesh 表示¶
为了优化过渡区域,CraftMesh 采用混合表示:
- 使用 MagicClay 的 SDF 骨干网络参数化网格
- SDF 可微分,支持基于梯度的优化
- 同时保留显式网格的渲染优势
Poisson 法线图编辑¶
这是几何融合的核心。从随机视角渲染以下信息:
| 符号 | 含义 |
|---|---|
| \(\tilde{n}_t\) | 当前过渡网格 \(M_t\) 的法线图 |
| \(n_e\) | 编辑网格 \(M_e\) 的法线图(目标) |
| \(n_t\) | 合成法线图(编辑区域取 \(M_e\),其余取 \(M_t\)) |
| \(\text{mask}^{\text{opt}}\) | 优化掩码,标记需要平滑过渡的区域 |
然后应用 Poisson Image Editing:
Poisson 编辑的物理意义:
- 掩码内部:保留 \(M_e\) 的法线梯度(即保留编辑区域的几何细节)
- 掩码边界:强制与周围原始区域的法线对齐(即确保平滑过渡)
优化目标¶
| 项 | 作用 |
|---|---|
| \(\|\tilde{n}_t - n_p\|_F^2\) | 驱动网格法线向 Poisson 编辑结果对齐 |
| \(E_{\text{smooth}}\) | 表面平滑正则化 |
| \(E_{\text{eikonal}}\) | SDF Eikonal 约束(\(\|\nabla \text{SDF}\| = 1\)),保证 SDF 合法性 |
在单张 4090 GPU 上迭代 1000 步,约 5 分钟完成。
第三步:Poisson 纹理协调¶
几何融合后,纹理仍然存在问题——编辑区域的纹理来自生成模型,保留区域的纹理来自原始网格,两者在边界处存在明显的颜色接缝和风格差异。
纹理来源¶
| 区域 | 纹理来源 | 标记 |
|---|---|---|
| 保留区域 | 原始网格纹理 | \(M_t^{\text{pr}}\) |
| 编辑区域 | MeshyAI 生成的纹理 | \(M_t^{\text{new}}\) |
表面 Poisson 方程¶
CraftMesh 将 Poisson 纹理融合直接在网格表面上求解:
- 密集采样:在融合网格表面密集采样点
- 2D Delaunay 三角化:将采样点投影到 2D 参数域,构建 Delaunay 三角网格图
- 求解 Poisson 方程:在不规则网格图上求解颜色 Poisson 方程
边界条件与约束¶
| 条件 | 位置 | 作用 |
|---|---|---|
| Dirichlet 边界条件 | 融合边界 | 固定颜色为保留区域的原始颜色,确保边界无缝 |
| 梯度约束 | 编辑区域内部 | 保留生成纹理的梯度(即保留纹理的细节和结构) |
这与经典 Poisson Image Editing 的思路完全一致:边界处颜色对齐消除接缝,内部保留梯度保持细节。
PBR 材质支持¶
纹理协调不仅适用于漫反射颜色通道,还可以直接扩展到 PBR 材质的各个通道(法线贴图、粗糙度、金属度等),对每个通道独立求解 Poisson 方程即可。
扩展能力:拖拽式编辑¶
CraftMesh 的框架不局限于文本驱动编辑。通过集成 LightningDrag,可以实现基于拖拽的 3D 编辑:
- 用户在参考图像上指定拖拽点对(源点 → 目标点)
- LightningDrag 替代 FLUX Kontext 完成 2D 图像编辑
- 后续的网格生成和 Poisson 融合流程不变
这展示了 CraftMesh 管线的模块化优势——2D 编辑模块可以灵活替换。
模型组件¶
CraftMesh 是一个纯 inference 管线,复用多个现成模型:
| 模块 | 模型 | 角色 |
|---|---|---|
| 2D 图像编辑 | FLUX Kontext | 文本指令驱动的参考图像编辑 |
| 3D 网格重建 | CraftsMan3D | 从 2D 图像生成 3D 网格 |
| SDF 优化骨干 | MagicClay | 提供可微分 SDF/Mesh 混合表示 |
| 纹理生成 | MeshyAI | 为编辑区域网格生成纹理 |
| 拖拽编辑(可选) | LightningDrag | 拖拽式 2D 图像编辑 |
实验结果¶
定量比较¶
CraftMesh 在编辑对齐指标上优于现有方法:
| 方法 | CLIP_sim ↑ | CLIP_dir ↑ | 类型 |
|---|---|---|---|
| FocalDreamer | 3.718 | — | 优化式 |
| MagicClay | 5.848 | — | SDF 优化 |
| CraftMesh | 11.866 | 25.488 | 管线式(Ours) |
- CLIP_sim:编辑结果与文本描述的语义相似度,CraftMesh 是 MagicClay 的 2 倍以上
- CLIP_dir:编辑方向与文本意图的对齐度,CraftMesh 在所有基线中取得最高分
消融实验¶
| 配置 | 效果 |
|---|---|
| 移除 Poisson 几何融合 | 编辑区域与原始区域之间出现明显的几何不连续和硬过渡 |
| 移除 Poisson 纹理协调 | 融合边界处出现颜色接缝,编辑区域与保留区域风格不统一 |
| 完整 CraftMesh | 几何平滑过渡 + 纹理高度一致,各项指标较优 |
消融实验清晰地验证了两阶段 Poisson 融合各自必要的贡献。
优势与局限¶
优势¶
- Training-free:纯 inference 管线,无需训练数据或微调,直接组合现成模型
- 显式网格操作:直接在三角网格上编辑,输出即为生产可用的 mesh,无需后处理转换
- 双重 Poisson 融合:同时解决几何不连续和纹理接缝两个痛点
- 模块化设计:各组件可独立替换升级(如换用更强的 3D 重建模型)
- PBR 支持:纹理协调天然扩展到多通道 PBR 材质
- 多模态编辑:支持文本驱动和拖拽驱动两种交互方式
局限¶
- 依赖 2D 编辑质量:FLUX Kontext 的编辑精度直接决定了最终 3D 编辑质量的上限
- 单视角限制:仅从单一参考视角进行图像编辑,复杂的多视角一致性编辑难以保证
- 3D 重建瓶颈:CraftsMan3D 的重建质量限制了编辑区域的几何精度
- Mesh Boolean 鲁棒性:粗融合阶段的布尔运算对退化网格可能不稳定
- 计算开销:虽然不需要训练,但 1000 步 SDF 优化仍需约 5 分钟,不是实时交互
在编辑方法谱系中的位置¶
CraftMesh 属于 Pipeline-based Mesh Editing 路线,与其他方法的对比:
- 与 MagicClay 同为显式网格编辑,但 MagicClay 需要 SDS 优化训练,CraftMesh 完全 training-free
- 与 VoxHammer 的区别在于表示空间不同——VoxHammer 在 3D 潜空间中编辑,CraftMesh 直接操作显式网格
- 其 Poisson 融合思想源自 2D 图像编辑的经典方法(Pérez et al., 2003),CraftMesh 的贡献是将其系统性地扩展到 3D 法线图域和网格表面颜色域
一句话总结¶
CraftMesh 的主要贡献是提出了一套 training-free 的显式网格编辑管线,通过将经典的 Poisson 融合思想同时应用于几何(法线图域)和纹理(网格表面域),解决了管线式 3D 编辑中的几何不连续和纹理接缝问题。