跳转至

Papers

3D 生成、编辑及相关领域文献索引,按研究方向分类,涵盖 mesh 生成中的 3D 隐空间表征主线、程序化 / 脚本生成路线与 mesh editing 主线的代表工作。


Generation

3D 物体生成方法:从文本/图像到 3D 资产。


商用 3D 生成模型系列 — 按产品系列整理 Tripo、Rodin、Hunyuan3D、Step1X-3D、Seed3D 等系统,重点讨论其几何表示、生成器训练范式、纹理模块和公开研究支撑的对应关系。→ 详情页

基于代码 / 脚本的 3D 生成 — 输出 Blender Python、几何节点参数、Python DSL 或引擎 API 的 3D 生成路线;覆盖 GeoCode、MeshCoder、VIGA、VoxelCodeBench、Infinigen 系列。→ 详情页

GeoCode (2025) — 点云/草图到 Blender 几何节点参数,重点是结构有效的程序空间和可解释参数编辑。→ 详情页

VIGA (2601) — 单图到 Blender 场景脚本的代理式逆向图形框架,通过多视角检查和持续改写代码逐步逼近目标场景。→ 详情页

VoxelCodeBench (2604) — 文本到 Unreal 体素 API 代码的空间推理评测基准,表明代码可执行不等于空间结果正确。→ 详情页

Infinigen (2306) — 全程序化自然场景 3D 生成器,真实几何,可用于 CV 训练数据。→ 详情页

Infinigen Indoors (2406) — Infinigen 扩展到完全程序化室内场景生成,并加入约束 DSL 与求解器。→ 详情页

TRELLIS (2412) — 结构化潜变量 (SLAT) + Sparse VAE + 两阶段 Flow Transformer 生成 + FlexiCubes Mesh 解码。当前多个编辑方法的骨干架构。

TRELLIS 2 (2512) — O-Voxel 表示替代 SDF,原生 PBR 材质,SC-VAE 实现 16× 空间压缩。

TRELLIS 2 O-Voxel

Hunyuan3D 1.0 (2411) — 级联 text→image→multiview→3D pipeline,使用 Hunyuan-DiT。

Hunyuan3D 2.0 (2501) — 解耦 Shape (DiT) + Texture (Paint) pipeline,高分辨率带纹理 3D 资产生成。

Hunyuan3D 2.0 架构

CLAY (2406) — 大规模 3D native asset generation:multi-resolution VAE + latent DiT + 数据标准化 + 多模态控制 + PBR 材质生成。Rodin 团队把几何、控制和资产增强接成一条完整管线。→ 详情页

BANG (2507) — part-aware 3D generation / decomposition:通过 generative exploded dynamics 生成从装配态到 exploded view 的连续部件分离序列,支持 bbox、surface region 和 2D ROI 控制。→ 详情页

Hi3DGen (2503) — 基于 TRELLIS,引入法线图作为几何桥梁 (NiRNE),单图像到高保真 3D。

Direct3D-S2 — Sparse SDF VAE + 空间稀疏注意力,实现 1024³ 分辨率 3D 生成。

Direct3D-S2

LATTICE / VoxSet (2512) — 半结构化 VoxSet,结合稀疏体素结构与 VecSet 紧凑性,可扩展 3D 生成。

TripoSG (2502) — 大规模高质量数据 + SDF VAE + Rectified Flow Transformer + MoE 扩展,代表 3D 生成系统化 scaling 路线。

UltraShape 1.0 (2512) — 粗到细生成框架 + 严格数据治理,高质量 3D 形状生成。

3DShape2VecSet (2301) — VecSet 路线奠基工作:固定长度 latent vector set (512×32),cross-attention 解码隐式场,EDM 扩散生成。→ 详情页

MeshGPT (2311) — Mesh-native AR 开创:graph convolution VQ-VAE 学面片码本 + decoder-only transformer 自回归生成三角网格 (CVPR 2024)。→ 详情页

TEXGen (2411) — 混合 2D-3D 扩散网络,前馈式 UV 纹理生成。

TriDiff-4D (2511) — 基于扩散的 Triplane 重姿态化,36s 内生成 4D 人体 Avatar (H100)。

SAM 3D (2511) — 单图像 3D 重建的生成基础模型,同时预测几何、纹理和布局。

ShapeLLM-Omni (2506) — 原生多模态 LLM,通过 3D VQVAE tokenization 统一 Mesh 理解、生成与编辑。

ShapeLLM-Omni

Nautilus (2501) — Locality-aware AE,BFS 邻接遍历 + 共享顶点/边压缩序列,mesh-native AR 生成推到 5000 面 (ICCV 2025)。

QuadGPT (2509) — 首个端到端四边形 mesh AR 生成,统一 tri/quad tokenization + tDPO RL 微调 (ICLR 2026)。

TSSR (2510) — 离散扩散 mesh-native 生成,拓扑雕刻 + 形状细化两阶段,10,000 面 / 1024^3 分辨率。

MeshRipple (2512) — Frontier-aware BFS tokenization + 前沿批量扩展 + sparse-attention global memory,解决 AR mesh 生成的拓扑断裂问题。

Sparc3D (2505) — Sparcubes + Sparconv-VAE,纯 3D 稀疏卷积模态一致管线,1024^3 高保真重建。

OctFusion (2408) — 八叉树 latent + 统一多尺度 U-Net 扩散,2.5s 生成连续流形 mesh (SGP 2025)。

VAT (2412) — Variational Tokenizer,250x 压缩(1MB→3.9KB),多尺度隐式层级,适配 LLM 架构的 3D tokenization。

PartCrafter (2506) — 首个 part-aware 3D mesh 生成,compositional latent space + 层级注意力,端到端部件分解。

Fantasia3D (2306) — DMTet + SDS + PBR 材质解耦,Text-to-3D 几何与外观分离优化 (ICCV 2023)。→ 详情页

Magic3D (2306) — NeRF coarse + DMTet fine 两阶段 coarse-to-fine Text-to-3D (CVPR 2023)。→ 详情页


Editing (22)

3D Mesh 编辑方法:基于扩散/生成模型、代码、拓扑的各种编辑技术。


VoxHammer (2508) — Training-free,基于 TRELLIS 反演缓存 + 特征注入保留未编辑区,需 3D 掩码。提出 Edit3D-Bench。

VoxHammer 架构

CraftMesh (2509) — 图像编辑 → Mesh 生成 → 泊松融合 pipeline,高保真 3D Mesh 编辑。

NANO3D (2510) — Training-free,基于 TRELLIS + FlowEdit 的编辑 pipeline,创建 Nano3D-Edit-100k 数据集。

NANO3D pipeline

3DEditVerse (2510) — 116K 训练对的大规模 3D 编辑数据集 + 3DEditFormer 模型,无需 3D 掩码。

3DEditVerse

3DEditFormer — 条件 Transformer:以源 3D 为条件的 image-to-3D 编辑 (3DEditVerse 的模型部分)。

PrEditor3D (2412) — 并行 2D 编辑 + 3D 重建 + 特征空间融合替换,GTR 解码输出编辑后 Mesh。

Steer3D (2512) — 类 ControlNet 文本引导,对 TRELLIS Image-to-3D 模型进行单次推理编辑。

Easy3E (2602) — 完全前馈的 3D 编辑框架,基于 TRELLIS,使用单张编辑视图。

MeshPad (2503) — 草图引导交互式 Mesh 生成/编辑,通过 add/delete 分解操作,基于 MeshAnythingV2。

MeshPad 方法概览

Native 3D Editing (2511) — 前馈式原生 3D 编辑,直接在 TRELLIS 结构化潜变量上操作,不经过 2D 中间步骤。

AnchorFlow (2511) — 无掩码 3D 编辑,在 Hunyuan3D 2.1 上通过锚点对齐的潜流实现。含 Eval3DEdit 数据集。

CMD (2505) — Controllable Multiview Diffusion,通过 MVControlNet 实现局部 3D 编辑和渐进生成。

Instructive3D (2501) — 文本指令驱动 3D 编辑,在 LRM 的 Triplane 潜空间中使用扩散适配器。

Masked LRMs (2412) — 3D 遮挡体 + 条件视图编辑,通过 Masked LRM 补全实现 Mesh 编辑。

SKED (2308) — 草图 + 文本引导 NeRF 编辑,结合 SDS 优化。

ShapeFusion (2403) — Mesh 顶点空间直接操作的扩散式局部编辑,对选定区域加噪、保持未编辑区域。

TEXTure (2302) — 迭代式 3D 纹理生成/编辑,深度条件扩散 + keep/refine/generate 区域分类。

TEXTure pipeline

Text2Mesh (2112) — CLIP 引导测试时优化,修改 Mesh 颜色和局部几何细节。每次输入需重新优化。

Text2VDM (2502) — 文本到矢量位移贴图 (VDM) 生成,用于 3D 雕刻笔刷,SDS 引导 Mesh 变形。

Text2VDM pipeline

GenVDM (2503) — 图像到 VDM pipeline,通过多视图法线图生成 3D 雕刻笔刷。

GenVDM pipeline

NI-Tex (2511) — 非等距纹理生成,处理 3D 服装中的拓扑/几何不匹配问题。

Poisson-Based Mesh Editing (2005) — 经典几何处理框架:泊松方程操控梯度场,统一变形、合并、平滑。


Mesh Processing (3)

Mesh 重建、补全与结构化处理。


MeshAnything V2 (2408) — Adjacent Mesh Tokenization,利用相邻面共享顶点将序列长度减半,面数 800→1600 (ICCV 2025)。→ 详情页

BPT (2411) — Blocked and Patchified Tokenization,把 Mesh 序列压缩到约 0.26,使 8k faces 级别训练成为可能。

FACE (2603) — one-face-one-token 自回归 mesh 表示,压缩比达到 0.11,属于当前 mesh-native 路线中压缩率较高的一类。

MeshCoder (2508) — 点云到可执行 Blender Python 脚本,构建大规模「3D 模型-代码」配对数据集训练 LLM。

MeshCoder 数据集可视化

X-Part (2509) — 基于扩散的可控 3D 部件分解,使用边界框和语义特征。


Representations & Foundations (12)

3D 表征方法、表面提取、重建模型。


3D Representation Survey — Voxel, 点云, Mesh, SDF, NeRF, 3DGS, Triplane, DMTet 综述。

3D 表征概览

NeRF — 神经辐射场:MLP 编码连续 5D→4D 函数,实现新视角合成。

3D Gaussian Splatting (3DGS) — 显式 3D 高斯椭球表示,实时新视角合成。

SDF (Signed Distance Function) — 隐式 3D 形状表示基础。

Triplane — 三个正交 2D 特征平面的高效 3D 表示 (EG3D, LRM 等使用)。

Marching Cubes & FlexiCubes — 经典 MC 算法与可微分 FlexiCubes Mesh 提取的技术对比。

Marching Cubes 基本拓扑

SparseFlex (2503) — 稀疏结构化可微 isosurface 表示,支持高分辨率、开放表面、内部结构与 frustum-aware sectional voxel training。

GTR — 改进 LRM:Conv 编码器 + PixelShuffle + DiffMC 几何精炼 + 纹理微调。

SuGaR (2311) — Surface-Aligned Gaussian Splatting,从 3DGS 高效提取 Mesh。

GOF (2404) — Gaussian Opacity Fields,从训练好的 3DGS 点云提取表面。

AGS-Mesh (2411) — 自适应高斯 Splatting + 几何先验,手机拍摄室内场景重建。

GS-2M (2509) — Gaussian-to-Mesh:TSDF Fusion + Marching Cubes 提取。


Two Core Literature Threads

Mesh Generation: 3D latent / token representation line

  • 3DShape2VecSet — VecSet:固定长度 latent vector set,开启 set-based 3D latent generation
  • CLAY — 在 VecSet 路线上做 foundation-model 级 scaling,并把 PBR 资产增强和多模态控制接入主干
  • TRELLIS — SLAT:稀疏空间结构 + 局部 latent,代表 structured latent 路线
  • TRELLIS 2 — O-Voxel:更原生的 structured 3D latent,支持 open surfaces / non-manifold / PBR
  • LATTICE / VoxSet — semi-structured latent:强调 localizable code
  • TripoSG / SparseFlex / Direct3D-S2 — 高分辨率 sparse volumetric scaling 路线
  • OctFusion — 八叉树 latent + 统一多尺度 U-Net,避免 cascaded diffusion
  • Sparc3D — 模态一致的纯 3D 稀疏卷积 VAE,消除 2D-3D 转换损失
  • VAT — 极端压缩的 variational tokenizer (250x),对接 LLM 架构
  • MeshGPT — mesh-native AR 开山:graph conv VQ-VAE + decoder-only transformer (CVPR 2024)
  • MeshAnything V2 / BPT / FACE — mesh-native token 路线,直接把 mesh 本身作为生成对象
  • Nautilus — locality-aware tokenization,利用面间拓扑邻接压缩序列,5000 面
  • MeshRipple — frontier-aware BFS + sparse-attention global memory,拓扑连贯生成
  • QuadGPT — 首个四边形 mesh AR 生成 + tDPO RL 微调
  • TSSR — 离散扩散替代 AR,拓扑雕刻 + 形状细化,10,000 面
  • PartCrafter — compositional latent space,端到端部件感知 mesh 生成
  • BANG — generative exploded dynamics,把 part-aware 能力从静态部件生成推进到连续拆解与回装

Mesh Editing: method evolution line

  • 优化式 / 几何处理式:Poisson-Based、Neural Cages、Text2Mesh、TEXTure、SKED
  • 2D lifting 到 3D:MVEdit、Tailor3D、CraftMesh、PrEditor3D
  • 原生 3D latent editing:TRELLIS、VoxHammer、NANO3D、3DEditVerse、Steer3D、Easy3E、Native 3D Editing、VecSet-Edit

这条发展线索背后的主要变化是:编辑操作正逐步从“先在 2D 改,再重建回 3D”转向“直接在原生 3D latent 上改”。


Benchmarks & Evaluation (5)

3D 生成评估框架与质量基准。


MATE-3D / HyperScore (2412) — 多维度质量评估器:4 维绝对评分 (MOS) + 超网络自动化评估器。107K 标注。

MATE-3D 结果

T³Bench (2310) — 自动化 Text-to-3D 评估:300 提示 × 3 难度级别,区域卷积检测 Janus 问题。

3DGen-Bench (2503) — 统一 Text/Image→3D 评估:68K 众包投票 + 56K 专家分数 + 3DGen-Score/Eval 工具。

Eval3D (2504) — 基础模型探针的一致性评估:零样本、像素级空间反馈、可解释缺陷定位。

Hi3DEval (2508) — 分层级评估:对象→部件→材质三级,30 模型 × 15K 资产,涵盖 PBR 属性评估。


Datasets (5)

3D 数据集与标注资源。


Objaverse-XL (2307) — 10M+ 3D 对象,来自 GitHub/Thingiverse/Sketchfab/Polycam,含 CLIP 嵌入。

ABO (Amazon Berkeley Objects) (2110) — 8K 高质量 3D 模型 + 重建/材质/检索 benchmark (CVPR 2022)。

ShapeTalk (2023) — 500K+ 自然语言描述 3D 形状差异,用于语言驱动形状编辑 (CVPR 2023)。

S2O (Static to Openable) (2409) — 将静态 3D Mesh 转换为可交互铰接对象,面向 Embodied AI。

VideoCAD (2505) — 大规模合成数据集,CAD UI 交互 + VideoCADFormer 模型。


Scene Generation (4)

场景级 3D 生成。


WorldGen (2511) — 文本到 3D 世界生成:场景规划 → 重建 → 分解 → 增强。

WorldGrow (2510) — 通过场景块 Inpainting 实现无限 3D 世界生成,粗到细策略。

Infinigen (2306) — 全程序化自然场景 3D 生成器,真实几何,可用于 CV 训练数据。→ 详情页

Infinigen Indoors (2406) — Infinigen 扩展到完全程序化室内场景生成。→ 详情页

Infinigen Indoors

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部