Hi3DGen¶
Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging

Hi3DGen 的核心判断很直接:单张 RGB 图像里包含了语义,但对几何细节并不够友好;如果想把几何保真度继续往上推,应该先显式恢复 normal,再让 3D 生成模型去利用这些 normal。
核心问题¶
已有 image-to-3D 方法在几何细节上常见几个瓶颈:
- 训练图像和真实输入之间有 domain gap
- RGB 图像本身存在光照、纹理、阴影歧义
- 直接从 RGB 学 3D,细小结构和锐边容易被抹平
Hi3DGen 的目标可以概括成:
用 normal 作为中间桥梁,把 2D 图像里的几何线索先抽出来,再交给 3D 生成骨干。
方法框架¶
论文由三个部分组成:
1. NiRNE:image-to-normal estimator¶
- 先把 RGB 图像转换为 normal map
- 用 noise injection 和 dual-stream training 拆开低频结构与高频细节
- 目标是同时获得稳定、可泛化、而且足够锐利的 normal
这里的重点在于把 normal 当作 2D 到 3D 之间的几何接口。
2. NoRLD:normal-regularized latent diffusion¶
- 在 TRELLIS 风格的 3D 生成骨干上加入 normal regularization
- normal 在这里承担明确的几何约束作用,不只是额外条件
- 生成时更倾向于保住局部边缘、折线和表面细节
3. DetailVerse 数据构建¶
- 论文额外构建了高细节 3D 资产数据
- 用合成数据补足人类资产中高频几何细节不足的问题
- 最终清洗后保留约
700K高质量 mesh
所以 Hi3DGen 更像一套把 normal bridge + 数据补强 + latent diffusion 组合起来的系统。
为什么 normal bridging 有用¶
论文的关键观点是:
- RGB 更擅长表达语义和材质
- normal 更直接表达表面方向和局部形状
因此,若先把图像变成 normal,再让 3D 模型根据 normal 学几何,会比直接从 RGB 生成 mesh 更容易保住精细结构。
这也解释了为什么它特别关注:
- sharp normal estimation
- normal-to-geometry fidelity
- detail-rich training data
关键实验结论¶
Normal 估计¶
在 LUCES-MV 上,NiRNE 相比其他 normal estimator 有明显优势:
NE = 21.837SNE = 26.628
对比里:
GeoWizard:NE 31.381,SNE 36.642StableNormal:NE 31.265,SNE 37.045GenPercept:NE 28.050,SNE 35.289
这里特别值得看的是 SNE,因为它更强调 sharp edge 区域,而 Hi3DGen 正是在这些局部细节上发力。
数据集¶
论文给出的 DetailVerse 统计也说明它确实偏向高细节几何:
700K合成高质量资产- 平均 sharp edge 数约
45,773 - 中位数约
14,521
相比 Objaverse 系列,这个 sharp-edge 密度高很多。
3D 生成效果¶
- 论文用户研究里,Hi3DGen 在几何保真度上优于 Hunyuan3D-2.0、Trellis、Clay、Tripo-2.5、Dora 等方法
- 消融显示,若不用 normal bridge,而是直接 image-to-3D,结果更容易出现假细节和不稳定几何
因此 Hi3DGen 的收益来自 normal bridge 和 DetailVerse 的共同作用,不只是数据变大。
它在文献线里的位置¶
Hi3DGen 很适合放在这条线上理解:
TRELLIS / TripoSG / Hunyuan3D:把大规模 image-to-3D 做到可用Hi3DGen:把几何 fidelity 继续往上推,尤其强调细节和锐边
它不像 O-Voxel 或 FACE 那样是在表示层换赛道,而是在现有 LRM / latent diffusion 路线上,把“几何中间信号”这件事做得更明确。
局限¶
- normal bridge 增强的是几何细节,但并没有从根本上解决单视图遮挡信息缺失
- 方法依赖高质量 normal estimator,如果前段 normal 出错,后段 3D 结果也会受影响
- 它主要关注 geometry fidelity,对完整 asset 的材质与编辑能力不是论文重点
一句话总结¶
Hi3DGen 的主要价值,是把 RGB -> normal -> geometry 这条桥接链路明确引入 image-to-3D 流程,用 normal 作为几何中间表示来提升高频细节与锐边保真度。