跳转至

Scene Generation

场景级 3D 生成——从单物体扩展到三维空间的构建。


典型工作

WorldGen — 文本到可遍历 3D 世界

WorldGen: From Text to Traversable and Interactive 3D Worlds

核心流程

  1. 自然语言描述 → 粗略空间布局 + 可行走区域
  2. 布局信息 → 整体三维网格
  3. 网格拆分为单独对象
  4. 每个对象细化 + 纹理生成

输出:可探索、可编辑的三维世界。可用于场景构建和通过改变部件实现数据增强。


SAM 3D Objects — 图到复杂 3D 场景

Facebook Research, 2024.11 开源

支持从图像生成场景,支持复杂三维排布。发布时的 SOTA 模型。


MIDI — 多实例扩散

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

与 TripoSG 同组的工作。从单张图像通过多实例扩散生成 3D 场景。


WorldGrow — 场景组合生成

将三维场景切分为大小不同的块 (blocks),通过块的拼接和补全来生成连续扩展的三维空间。能在保持整体布局合理的同时生成细节丰富的大规模虚拟环境。


Infinigen — 程序化自然世界生成

CVPR 2023

Infinigen 的目标是直接把自然世界写成程序,而不是从图像或文本反推一个场景:

  • 完全程序化:地形、植物、动物、天气和材质都由随机数学规则生成,不依赖外部静态资产
  • 真实几何:强调真实几何细节,而不是只靠贴图或法线伪细节,因此更适合生成深度、法线、实例分割、光流等标注
  • 可扩展实现:基于 Blender,并提供节点图到 Python 的转换工具,便于把艺术家样式的节点规则纳入程序系统

如果从表示角度看,Infinigen 更接近“程序本身就是场景表示”的路线,可与 基于代码 / 脚本的 3D 生成 对照阅读。


Infinigen Indoors — 程序化室内生成

CVPR 2024, 至今持续维护的 SOTA 框架

Infinigen 项目的室内扩展。核心特点:

  • 全程序化:数百种家具、建筑构件、厨卫设备用几何/材质节点规则随机生成,不依赖外部静态资产库
  • 约束语言 + 求解器:Python DSL 描述对称、空间关系、物理、通道可达性等约束;退火式求解器分三层逐级搜索(户型 → 大件家具 → 小件摆设)
  • 导出支持:OBJ / FBX / PLY / STL / USD,可导入 Omniverse / Unreal 实时仿真
  • 从 1.5 版起支持导入外部静态模型

相对原始 Infinigen,室内版本把“程序化资产”进一步扩展为“程序化资产 + 约束驱动布局”。


Imaginarium — 视觉引导的场景布局

Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation

流程

  1. 收集 2000+ 高质量 3D 资产,人工设计 140+ 复杂场景
  2. 文字提示 → 图像生成模型 → 参考图像
  3. 语义分割 + 深度估计 + 几何分析 → 提取物体位置与关系
  4. 检索匹配的 3D 资产 → 估算旋转/平移/缩放
  5. 场景图约束 + 物理模拟 → 优化布局

在用户研究中优于现有方法。


场景生成的技术谱系

方法 输入 生成方式 核心技术 特点
WorldGen 文本 端到端 布局生成 + Mesh 拆分 + 细化 可遍历、可编辑
SAM 3D 图像 端到端 多实例 3D 推理 复杂排布
MIDI 单张图像 多实例扩散 扩散模型 与 TripoSG 同组
WorldGrow - 块拼接/补全 场景组合生成 大规模连续扩展
Infinigen 随机种子 程序化 数学规则 + 节点图 + Blender Python 自然世界、真实几何
Infinigen Indoors 布局约束 程序化 + 求解 Python DSL + 退火式求解器 室内场景、语义与物理约束
Imaginarium 文本 资产检索 + 布局 视觉引导 + 物理模拟 高质量布局

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部