跳转至

Hi3DGen

Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging

Overview

Hi3DGen 的核心判断很直接:单张 RGB 图像里包含了语义,但对几何细节并不够友好;如果想把几何保真度继续往上推,应该先显式恢复 normal,再让 3D 生成模型去利用这些 normal。


核心问题

已有 image-to-3D 方法在几何细节上常见几个瓶颈:

  • 训练图像和真实输入之间有 domain gap
  • RGB 图像本身存在光照、纹理、阴影歧义
  • 直接从 RGB 学 3D,细小结构和锐边容易被抹平

Hi3DGen 的目标可以概括成:

用 normal 作为中间桥梁,把 2D 图像里的几何线索先抽出来,再交给 3D 生成骨干。


方法框架

论文由三个部分组成:

1. NiRNE:image-to-normal estimator

  • 先把 RGB 图像转换为 normal map
  • 用 noise injection 和 dual-stream training 拆开低频结构与高频细节
  • 目标是同时获得稳定、可泛化、而且足够锐利的 normal

这里的重点在于把 normal 当作 2D 到 3D 之间的几何接口。

2. NoRLD:normal-regularized latent diffusion

  • 在 TRELLIS 风格的 3D 生成骨干上加入 normal regularization
  • normal 在这里承担明确的几何约束作用,不只是额外条件
  • 生成时更倾向于保住局部边缘、折线和表面细节

3. DetailVerse 数据构建

  • 论文额外构建了高细节 3D 资产数据
  • 用合成数据补足人类资产中高频几何细节不足的问题
  • 最终清洗后保留约 700K 高质量 mesh

所以 Hi3DGen 更像一套把 normal bridge + 数据补强 + latent diffusion 组合起来的系统。


为什么 normal bridging 有用

论文的关键观点是:

  • RGB 更擅长表达语义和材质
  • normal 更直接表达表面方向和局部形状

因此,若先把图像变成 normal,再让 3D 模型根据 normal 学几何,会比直接从 RGB 生成 mesh 更容易保住精细结构。

这也解释了为什么它特别关注:

  • sharp normal estimation
  • normal-to-geometry fidelity
  • detail-rich training data

关键实验结论

Normal 估计

在 LUCES-MV 上,NiRNE 相比其他 normal estimator 有明显优势:

  • NE = 21.837
  • SNE = 26.628

对比里:

  • GeoWizard: NE 31.381, SNE 36.642
  • StableNormal: NE 31.265, SNE 37.045
  • GenPercept: NE 28.050, SNE 35.289

这里特别值得看的是 SNE,因为它更强调 sharp edge 区域,而 Hi3DGen 正是在这些局部细节上发力。

数据集

论文给出的 DetailVerse 统计也说明它确实偏向高细节几何:

  • 700K 合成高质量资产
  • 平均 sharp edge 数约 45,773
  • 中位数约 14,521

相比 Objaverse 系列,这个 sharp-edge 密度高很多。

3D 生成效果

  • 论文用户研究里,Hi3DGen 在几何保真度上优于 Hunyuan3D-2.0、Trellis、Clay、Tripo-2.5、Dora 等方法
  • 消融显示,若不用 normal bridge,而是直接 image-to-3D,结果更容易出现假细节和不稳定几何

因此 Hi3DGen 的收益来自 normal bridgeDetailVerse 的共同作用,不只是数据变大。


它在文献线里的位置

Hi3DGen 很适合放在这条线上理解:

  • TRELLIS / TripoSG / Hunyuan3D:把大规模 image-to-3D 做到可用
  • Hi3DGen:把几何 fidelity 继续往上推,尤其强调细节和锐边

它不像 O-Voxel 或 FACE 那样是在表示层换赛道,而是在现有 LRM / latent diffusion 路线上,把“几何中间信号”这件事做得更明确。


局限

  • normal bridge 增强的是几何细节,但并没有从根本上解决单视图遮挡信息缺失
  • 方法依赖高质量 normal estimator,如果前段 normal 出错,后段 3D 结果也会受影响
  • 它主要关注 geometry fidelity,对完整 asset 的材质与编辑能力不是论文重点

一句话总结

Hi3DGen 的主要价值,是把 RGB -> normal -> geometry 这条桥接链路明确引入 image-to-3D 流程,用 normal 作为几何中间表示来提升高频细节与锐边保真度。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部