程序化生成与代码驱动 3D 路线对比矩阵¶

基于代码（Code）与脚本（Script）的 3D 生成路线，正在从传统的纯数学规则（如 Infinigen）向“大模型编写与修正代码”（如 VIGA, VoxelCodeBench）发展。这类方法的共同点是输出结构化、可编辑、可执行的程序表示，而非直接输出最终的 Mesh 或 Voxel 结果。

以下矩阵对比了该方向的 5 篇核心代表性工作：

核心方法对比表¶

工作 (Paper)	核心任务 (Task)	目标平台/执行器 (Engine/API)	AI 角色 (AI Role)	关键特性 (Key Features)	开源状态
GeoCode (CVPR 2025)	单图/点云/草图 \(\rightarrow\) 3D 形状	Blender 几何节点 (Geo Nodes)	参数回归器将视觉输入映射到预定义的几何节点参数空间	强约束设计，确保 100% 结构有效性；输出极其易于参数化编辑	✅ 代码开源
VIGA (2026)	单图 \(\rightarrow\) 3D/4D 场景代码	Blender Python API	自我修正 Agent VLM 循环审阅渲染结果并修改代码	基于视觉反馈的持续优化 (Inverse Graphics)；不需要专门训练 3D Prior	✅ 代码开源
VoxelCodeBench (2026)	文本指令 \(\rightarrow\) 体素场景代码 (评测基准)	Unreal Engine Voxel API	评测目标评估 LLM 纯依靠代码理解 3D 空间的能力	构建 220 个空间推理任务；揭示了大模型在空间感知和物理组装上的薄弱环节	✅ 基准开源
Infinigen (CVPR 2023)	随机种子 \(\rightarrow\) 自然世界场景	Blender Python API + Math Rules	无 AI (过程化) 纯过程化生成的数学规则堆栈	无限变化、100% 纯程序化（无需外部静态资产）；涵盖地形、动植物、材质	✅ 引擎开源
Infinigen Indoors (CVPR 2024)	布局约束 \(\rightarrow\) 室内场景	Python DSL + 约束求解器 (Constraint Solver)	约束求解规则指导下的空间放置算法	基于图结构的室内语法，支持物理碰撞检测和语义空间排布	✅ 引擎开源

路线发展与关系¶

经典程序化 (The Foundation) Infinigen 系列确立了纯程序化生成的极高上限。它证明了只要规则足够丰富，仅凭代码就能生成媲美现实世界的训练数据。但它的局限在于：编写这些规则极其耗费人力（由数百名开发者参与编写底层代码）。
特定领域反演 (Domain-Specific Inversion) 为了将真实世界的视觉信号快速转换回可编辑的代码，GeoCode 选择了一条“先验约束”之路。它将程序的搜索空间限制在人工设计好的 Blender 几何节点结构中，从而降低了反向推导的难度，并确保生成的代码百分百可用。
视觉反馈智能体 (Vision-in-the-Loop Agents) VIGA 则放弃了强人工约束，尝试让多模态大模型直接像人类一样“看图写代码”。通过将代码执行后的渲染结果与输入图像进行反复比对，VLM 可以自我纠错并不断完善 Blender 脚本，这标志着代码生成向通用的 Inverse Graphics 迈进。
空间推理评测 (Spatial Reasoning Benchmark) 随着社区开始大规模使用 LLM 写 3D 代码，VoxelCodeBench 适时地提出了冷水：当前最强的大模型（如 GPT-4, Claude 3.5）虽然能写出不报错的代码，但一旦涉及稍微复杂的 3D 空间叠加、包含或组合关系，依然错漏百出。这为“AI 驱动 3D 脚本生成”指明了下一步的核心优化重点。

程序化生成与代码驱动 3D 路线对比矩阵¶

核心方法对比表¶

路线发展与关系¶

评论