CLAY¶

CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

Overview

CLAY 可以看作 3D asset generation 里一条很典型的系统路线：先把几何生成做成大规模 3D native foundation model，再把材质、控制条件、资产后处理接到这条主干上。它的目标是生成可直接进入生产流程的 3D 资产，而不只停留在单个 mesh。

核心问题¶

CLAY 试图同时解决三个问题：

3D 原生生成模型的规模还不够大，几何先验不够强
现有方法常在几何和材质之间耦合过深，最终资产不够完整
2D control 很成熟，但 3D 里缺少统一的多模态控制接口

论文的判断很明确：

几何生成要直接从大规模 3D 数据中学，而不是主要依赖 2D lifting
材质生成单独建模更合适，避免几何和外观相互牵制
训练前先把 3D 数据统一成高质量 watertight 表示，否则模型很难 scale

整体结构¶

CLAY 拆成两条主线：几何生成和资产增强。

```text Text / Image / 3D condition -> Latent DiT (geometry generation) -> VAE decoder -> Occupancy field -> Marching Cubes -> mesh

mesh -> quadrification + UV atlasing -> multi-view material diffusion -> diffuse / roughness / metallic -> production-ready 3D asset ```

这里最重要的取舍是：

几何和材质解耦：先把形状生成做好，再做 PBR 材质
控制模块外挂化：文本是基础条件，其它条件通过额外 cross-attention 模块接入
后处理进入主系统：mesh quadrification、UV、PBR 贴图都被纳入主 asset pipeline，而不再是附带步骤

1. 几何基础模型¶

多分辨率 VAE¶

CLAY 延续 3DShape2VecSet 的 set-based latent 思路，但把几何编码做成更适合大规模训练的多分辨率版本。

输入：从 mesh 表面采样的点云
编码：cross-attention 把点云压成 latent set
解码：latent + 查询点坐标 -> occupancy logits
提取：在 512^3 分辨率上稠密采样，再用 Marching Cubes 提取 mesh

它的一个直接目的，是把 3D generation 变成类似 2D latent diffusion 的过程：先在紧凑 latent 空间里生成，再通过 decoder 恢复连续几何。

Latent DiT¶

几何生成器是纯 Transformer 的 latent DiT。

24 层 transformer
模型规模从 227M 一直扩到 1.5B
latent length 用 progressive schedule 从 512 -> 1024 -> 2048
训练时用 cosine beta schedule、v-prediction、zero terminal SNR

这里更值得注意的是它的 progressive scaling，不在某个单独的 block：

先在较短 latent 上收敛
再逐步增加 latent 长度和模型参数
同时降低学习率，避免大模型直接训练不稳定

论文最终的 XL 模型用了 256 张 A800，训练约 15 天。这说明 CLAY 的重点确实是把 3D 原生生成往 foundation model 的规模推。

2. 数据标准化为什么重要¶

CLAY 很强调 3D 数据治理。

原始 Objaverse / ShapeNet 存在的问题包括：

非 watertight
朝向不一致
注释粗糙
不同来源格式不统一

为此论文做了两件事。

几何统一¶

目标是把不同来源 mesh 统一成适合 VAE 学习的 occupancy / watertight 表示，同时尽量保留几何边和面。

CLAY 没直接采用会把边角抹平的 remeshing，而是基于 UDF 和可见性分析做几何统一：

保留 sharp edges / flat surfaces
对 non-watertight mesh 更稳
在 isosurface 提取前用 grid visibility 标记 inside / outside

最终保留约 527K 个高质量对象用于预训练。

文本注释¶

论文还借助 GPT-4V 生成更细的几何与风格标签，用来提升文本到 3D 的可控性。

这一步的意义在于让 prompt 可以更稳定地控制：

对称 / 非对称
sharp / smooth
low-poly / complex
character-like 等风格标签

3. 资产增强：从 mesh 到可用资产¶

CLAY 与很多只停留在 geometry generation 的方法不同，它进一步做了资产增强。

Mesh quadrification 与 UV¶

Marching Cubes 输出通常是高密度三角面，不适合直接进入游戏引擎或编辑流程。

CLAY 在几何生成后继续做：

triangle mesh -> quad mesh
自动 UV atlasing
保留硬边和平面结构

这一步很重要，因为后续 PBR 材质生成和资产编辑都依赖更规整的 mesh 拓扑。

Multi-view Material Diffusion¶

材质部分直接生成 PBR 所需的多个纹理通道，不只是简单贴色图：

diffuse
roughness
metallic

做法上，CLAY 基于多视图扩散模型生成与几何对齐的多视图贴图，再反投影到 UV 空间。它还结合：

法线图条件
ControlNet 式几何约束
LoRA 式高效微调
超分辨率增强到 2K 贴图

因此 CLAY 的输出更接近 production-ready asset，而不是只适合论文展示的彩色几何。

4. 多模态控制¶

CLAY 的另一个亮点，是把多种条件统一接在 latent DiT 上。

支持的条件包括：

文本
图像 / 草图
voxel
多视图图像
点云
bounding box
partial point cloud + extension box

统一形式是：在原始文本 cross-attention 之外，再添加并行的条件 cross-attention 残差：

\[ Z \leftarrow Z + \mathrm{CrossAttn}(Z, c) + \sum_i \alpha_i \mathrm{CrossAttn}_i(Z, c_i) \]

这意味着不同条件是插件式接入的，而不是为每种输入单独重写 backbone。

对于图像 / 草图，CLAY 用 DINOv2 抽特征；对于 voxel、point cloud、bbox 这类 3D 条件，则显式加入位置编码来保留空间信息。

这套设计带来的直接好处是：

同一个几何基础模型可以复用到很多下游交互形式
可以单条件或多条件联合控制
控制既可以是语义性的，也可以是空间性的

5. 实验结果¶

模型越大，几何质量越稳¶

文本到 3D 的结果里，CLAY 从 Tiny 到 XL 呈现稳定的 scaling 规律。论文报告中，XL-P-HD 在点云 FID / KID 等几何指标上最好，说明更长 latent 和更大模型都带来实质收益。

多视图条件效果最好¶

在各类条件里，多视图 normal / image conditioning 的结果很强：

Voxel-IoU 约 0.77
F-score 约 0.82

这说明 CLAY 既能做生成，也可以当高质量 multi-view reconstruction backend。

与当时方法对比¶

论文里和 Shap-E、DreamFusion、Magic3D、MVDream、RichDreamer 等方法比较，结论很明确：

比优化式方法快很多
比 2D lifting 路线的几何更稳
对 image-to-3D 和 text-to-3D 都有较强的综合表现
生成速度约 45s，其中几何约几秒，纹理生成占主要时间

这也体现了 CLAY 的定位：并不只追求最快的 shape generator，更强调完整资产输出。

与其他工作的关系¶

相比 3DShape2VecSet¶

都是 set-based latent + transformer VAE 路线
CLAY 更强调大规模预训练、progressive scaling 和多模态控制
CLAY 把 asset enhancement 明确接到了主流程里

相比 Hunyuan3D 2.0 / TripoSG¶

三者都属于“几何 foundation model + 大规模数据 + 条件生成”的系统路线
Hunyuan3D 2.0 更突出几何-纹理解耦和工业化纹理流程
TripoSG 更强调高质量数据治理 + SDF VAE + Rectified Flow scaling
CLAY 的特点是更早把 controllable multi-modal generation 和 PBR asset pipeline 结合在一起

相比优化式 Text-to-3D¶

优化式方法依赖 SDS，速度慢且容易出现几何不稳定
CLAY 直接在 3D latent 里生成，几何 fidelity 和控制性都更适合作为基础模型

延伸思考¶

CLAY 这类工作很适合放在“面向艺术生产的 3D foundation model”语境里理解。

它追求的是：

更好的几何观感
更强的多模态控制
更完整的资产输出
更快地把想法变成可用的 3D 内容

这和工业生成的目标并不完全一致。工业场景往往要求严格尺寸、装配约束、参数可编辑性和可制造性，仅靠概率式 mesh / field 生成通常不够稳。长期看，工业 3D 很可能更偏向 CAD 脚本、程序化建模、参数化约束这类路线。

因此，CLAY 更像是在证明另一条主线：对于艺术资产生产，端到端概率式 3D 生成模型完全可能成为主流基础设施；但它未必直接等价于工业级几何设计系统。

优势与局限¶

优势¶

明确走 3D native foundation model 路线
数据清洗、模型 scaling、控制模块、材质流程是一体化设计
输出包含 geometry + PBR materials，更接近实际资产生产
多模态控制接口很完整，覆盖文本、图像和多种 3D 条件

局限¶

latent 仍是 set-based 表示，空间结构不如后来的 structured latent 明确
几何仍通过 field -> Marching Cubes 提取，不是 mesh-native 生成
训练和推理成本都不低，完整资产生成仍需几十秒
材质阶段依赖后处理和多视图映射，流程相对复杂

一句话总结¶

CLAY 的意义在于，它把“3D 原生大模型 + 数据标准化 + 多模态控制 + PBR 资产增强”组合成了一条相对完整的 3D asset generation pipeline，证明了 3D 生成也可以沿着类似 2D foundation model 的方式系统扩展。