CLAY¶
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

CLAY 可以看作 3D asset generation 里一条很典型的系统路线:先把几何生成做成大规模 3D native foundation model,再把材质、控制条件、资产后处理接到这条主干上。它的目标是生成可直接进入生产流程的 3D 资产,而不只停留在单个 mesh。
核心问题¶
CLAY 试图同时解决三个问题:
- 3D 原生生成模型的规模还不够大,几何先验不够强
- 现有方法常在几何和材质之间耦合过深,最终资产不够完整
- 2D control 很成熟,但 3D 里缺少统一的多模态控制接口
论文的判断很明确:
- 几何生成要直接从大规模 3D 数据中学,而不是主要依赖 2D lifting
- 材质生成单独建模更合适,避免几何和外观相互牵制
- 训练前先把 3D 数据统一成高质量 watertight 表示,否则模型很难 scale
整体结构¶
CLAY 拆成两条主线:几何生成和资产增强。
```text Text / Image / 3D condition -> Latent DiT (geometry generation) -> VAE decoder -> Occupancy field -> Marching Cubes -> mesh
mesh -> quadrification + UV atlasing -> multi-view material diffusion -> diffuse / roughness / metallic -> production-ready 3D asset ```
这里最重要的取舍是:
- 几何和材质解耦:先把形状生成做好,再做 PBR 材质
- 控制模块外挂化:文本是基础条件,其它条件通过额外 cross-attention 模块接入
- 后处理进入主系统:mesh quadrification、UV、PBR 贴图都被纳入主 asset pipeline,而不再是附带步骤
1. 几何基础模型¶
多分辨率 VAE¶
CLAY 延续 3DShape2VecSet 的 set-based latent 思路,但把几何编码做成更适合大规模训练的多分辨率版本。
- 输入:从 mesh 表面采样的点云
- 编码:cross-attention 把点云压成 latent set
- 解码:latent + 查询点坐标 -> occupancy logits
- 提取:在
512^3分辨率上稠密采样,再用 Marching Cubes 提取 mesh
它的一个直接目的,是把 3D generation 变成类似 2D latent diffusion 的过程:先在紧凑 latent 空间里生成,再通过 decoder 恢复连续几何。
Latent DiT¶
几何生成器是纯 Transformer 的 latent DiT。
- 24 层 transformer
- 模型规模从
227M一直扩到1.5B - latent length 用 progressive schedule 从
512 -> 1024 -> 2048 - 训练时用 cosine beta schedule、
v-prediction、zero terminal SNR
这里更值得注意的是它的 progressive scaling,不在某个单独的 block:
- 先在较短 latent 上收敛
- 再逐步增加 latent 长度和模型参数
- 同时降低学习率,避免大模型直接训练不稳定
论文最终的 XL 模型用了 256 张 A800,训练约 15 天。这说明 CLAY 的重点确实是把 3D 原生生成往 foundation model 的规模推。
2. 数据标准化为什么重要¶
CLAY 很强调 3D 数据治理。
原始 Objaverse / ShapeNet 存在的问题包括:
- 非 watertight
- 朝向不一致
- 注释粗糙
- 不同来源格式不统一
为此论文做了两件事。
几何统一¶
目标是把不同来源 mesh 统一成适合 VAE 学习的 occupancy / watertight 表示,同时尽量保留几何边和面。
CLAY 没直接采用会把边角抹平的 remeshing,而是基于 UDF 和可见性分析做几何统一:
- 保留 sharp edges / flat surfaces
- 对 non-watertight mesh 更稳
- 在 isosurface 提取前用 grid visibility 标记 inside / outside
最终保留约 527K 个高质量对象用于预训练。
文本注释¶
论文还借助 GPT-4V 生成更细的几何与风格标签,用来提升文本到 3D 的可控性。
这一步的意义在于让 prompt 可以更稳定地控制:
- 对称 / 非对称
- sharp / smooth
- low-poly / complex
- character-like 等风格标签
3. 资产增强:从 mesh 到可用资产¶
CLAY 与很多只停留在 geometry generation 的方法不同,它进一步做了资产增强。
Mesh quadrification 与 UV¶
Marching Cubes 输出通常是高密度三角面,不适合直接进入游戏引擎或编辑流程。
CLAY 在几何生成后继续做:
- triangle mesh -> quad mesh
- 自动 UV atlasing
- 保留硬边和平面结构
这一步很重要,因为后续 PBR 材质生成和资产编辑都依赖更规整的 mesh 拓扑。
Multi-view Material Diffusion¶
材质部分直接生成 PBR 所需的多个纹理通道,不只是简单贴色图:
- diffuse
- roughness
- metallic
做法上,CLAY 基于多视图扩散模型生成与几何对齐的多视图贴图,再反投影到 UV 空间。它还结合:
- 法线图条件
- ControlNet 式几何约束
- LoRA 式高效微调
- 超分辨率增强到
2K贴图
因此 CLAY 的输出更接近 production-ready asset,而不是只适合论文展示的彩色几何。
4. 多模态控制¶
CLAY 的另一个亮点,是把多种条件统一接在 latent DiT 上。
支持的条件包括:
- 文本
- 图像 / 草图
- voxel
- 多视图图像
- 点云
- bounding box
- partial point cloud + extension box
统一形式是:在原始文本 cross-attention 之外,再添加并行的条件 cross-attention 残差:
这意味着不同条件是插件式接入的,而不是为每种输入单独重写 backbone。
对于图像 / 草图,CLAY 用 DINOv2 抽特征;对于 voxel、point cloud、bbox 这类 3D 条件,则显式加入位置编码来保留空间信息。
这套设计带来的直接好处是:
- 同一个几何基础模型可以复用到很多下游交互形式
- 可以单条件或多条件联合控制
- 控制既可以是语义性的,也可以是空间性的
5. 实验结果¶
模型越大,几何质量越稳¶
文本到 3D 的结果里,CLAY 从 Tiny 到 XL 呈现稳定的 scaling 规律。论文报告中,XL-P-HD 在点云 FID / KID 等几何指标上最好,说明更长 latent 和更大模型都带来实质收益。
多视图条件效果最好¶
在各类条件里,多视图 normal / image conditioning 的结果很强:
Voxel-IoU约0.77F-score约0.82
这说明 CLAY 既能做生成,也可以当高质量 multi-view reconstruction backend。
与当时方法对比¶
论文里和 Shap-E、DreamFusion、Magic3D、MVDream、RichDreamer 等方法比较,结论很明确:
- 比优化式方法快很多
- 比 2D lifting 路线的几何更稳
- 对 image-to-3D 和 text-to-3D 都有较强的综合表现
- 生成速度约
45s,其中几何约几秒,纹理生成占主要时间
这也体现了 CLAY 的定位:并不只追求最快的 shape generator,更强调完整资产输出。
与其他工作的关系¶
相比 3DShape2VecSet¶
- 都是 set-based latent + transformer VAE 路线
- CLAY 更强调大规模预训练、progressive scaling 和多模态控制
- CLAY 把 asset enhancement 明确接到了主流程里
相比 Hunyuan3D 2.0 / TripoSG¶
- 三者都属于“几何 foundation model + 大规模数据 + 条件生成”的系统路线
Hunyuan3D 2.0更突出几何-纹理解耦和工业化纹理流程TripoSG更强调高质量数据治理 + SDF VAE + Rectified Flow scalingCLAY的特点是更早把 controllable multi-modal generation 和 PBR asset pipeline 结合在一起
相比优化式 Text-to-3D¶
- 优化式方法依赖 SDS,速度慢且容易出现几何不稳定
- CLAY 直接在 3D latent 里生成,几何 fidelity 和控制性都更适合作为基础模型
延伸思考¶
CLAY 这类工作很适合放在“面向艺术生产的 3D foundation model”语境里理解。
它追求的是:
- 更好的几何观感
- 更强的多模态控制
- 更完整的资产输出
- 更快地把想法变成可用的 3D 内容
这和工业生成的目标并不完全一致。工业场景往往要求严格尺寸、装配约束、参数可编辑性和可制造性,仅靠概率式 mesh / field 生成通常不够稳。长期看,工业 3D 很可能更偏向 CAD 脚本、程序化建模、参数化约束这类路线。
因此,CLAY 更像是在证明另一条主线:对于艺术资产生产,端到端概率式 3D 生成模型完全可能成为主流基础设施;但它未必直接等价于工业级几何设计系统。
优势与局限¶
优势¶
- 明确走 3D native foundation model 路线
- 数据清洗、模型 scaling、控制模块、材质流程是一体化设计
- 输出包含 geometry + PBR materials,更接近实际资产生产
- 多模态控制接口很完整,覆盖文本、图像和多种 3D 条件
局限¶
- latent 仍是 set-based 表示,空间结构不如后来的 structured latent 明确
- 几何仍通过 field -> Marching Cubes 提取,不是 mesh-native 生成
- 训练和推理成本都不低,完整资产生成仍需几十秒
- 材质阶段依赖后处理和多视图映射,流程相对复杂
一句话总结¶
CLAY 的意义在于,它把“3D 原生大模型 + 数据标准化 + 多模态控制 + PBR 资产增强”组合成了一条相对完整的 3D asset generation pipeline,证明了 3D 生成也可以沿着类似 2D foundation model 的方式系统扩展。