Instructive3D¶

Instructive3D: Editing Large Reconstruction Models with Text Instructions

Overview

Instructive3D 的目标很明确：把 LRM 从“只能重建 3D”扩展成“还能根据文本做细粒度编辑”。它的方法是在 triplane latent 上加一个文本条件 diffusion adapter，不需要重新训练完整 3D 模型。

核心问题¶

LRM 一类方法很适合从单图生成 3D，但缺少细粒度控制：

Instructive3D 的问题意识是：

能不能不给 3D 编辑模型准备昂贵的成对 3D 编辑数据，而只在 latent 空间里用文本引导做编辑。

论文将 Instructive3D 与 Text2Mesh、Paint3D、TEXTure 做对比，结果显示它在大多数指标上更好：

对比里：

这说明在它的实验设置下，直接在 triplane latent 上做文本编辑，比这些较早的纹理/风格方法更稳。

论文还比较了：

结果是分离的 2D VAE 更好，训练损失和 MSE 都更低。这说明 triplane 的三个平面分开编码是更自然的设计。

Instructive3D 的意义在于，它把“文本编辑 LRM”这件事变成了一个较低成本的适配问题：

这让 LRM 从纯 reconstruction model 朝可控生成系统迈了一步。

Instructive3D 的主要贡献，是在 LRM 的 triplane latent 上加入文本条件 diffusion adapter，让单图重建模型具备了更细粒度的文本驱动 3D 编辑能力。