Benchmarks¶

Overview

3D 生成评估 Benchmark 的综述与发展分析。涵盖 6 个评估框架。

总览：六个评估框架对比¶

框架	任务	数据来源	评分范式	核心维度	独特之处
3D Arena	Image→3D	众包	相对偏好 (ELO)	综合主观质量	社区驱动，12 万+ 投票
MATE-3D	Text→3D	人类标注	绝对分数 (MOS) + HyperScore	语义对齐、几何、纹理、综合	多维度绝对评分 + 超网络评估器
T³Bench	Text→3D	自动化	自动化分数	质量 (含视角一致性)、文本对齐	区域卷积检测 Janus 问题
3DGen-Bench	Text/Image→3D	混合 (众包+专家)	相对偏好 + 绝对分数	几何合理性/细节、纹理、对齐	统一两任务 + 互补工具 (Score+Eval)
Eval3D	Text/Image→3D	自动化	一致性分数	几何/语义/结构一致性、美学	基础模型探针，零样本，像素级反馈
Hi3DEval	Text/Image→3D	专家标注	绝对分数 + 学习模型	对象级→部件级→材质级	分层级诊断，率先评估 PBR 材质

发展四阶段¶

Phase 1: 竞技场时代 — 众包偏好¶

代表：3D Arena

核心方法：匿名成对比较 + ELO 评分系统
数据规模：8,096 名用户，123,243 次投票
评估粒度：单一综合质量（"哪个更好？"）
关键发现：
Gaussian Splat 比 Mesh 有 16.6 ELO 优势
有纹理 vs 无纹理：144.1 ELO 差异

局限性

综合质量评分将几何准确性、纹理真实性、对齐度混淆为一个模糊分数。评估结果极易被表面美学特征主导，而非 3D 结构正确性。

Phase 2: 维度解耦时代 — 多维绝对评分¶

代表：MATE-3D / HyperScore

从「哪个更好」到「好到什么程度」的转变。

数据集：1,280 个带纹理网格，8 类提示（单对象 4 类 + 多对象 4 类）
标注：107,520 个独立评分（每资产 4 维度 × MOS 0-10）
四个维度：
语义对齐性 (Semantic Alignment)
几何质量 (Geometry Quality)
纹理质量 (Texture Quality)
综合质量 (Overall Quality)
HyperScore：超网络架构，根据评估维度条件动态生成预测头权重，单模型输出多维度专门分数

Phase 3: 自动化与伪影感知时代¶

代表：T³Bench, Eval3D

T³Bench — 自动化多视角评估¶

设计理念：针对 Janus 问题等 3D 特有伪影设计专门的自动化检测。

分层提示集：单对象 → 带环境单对象 → 多对象（复杂度递增）
两个自动化指标：
质量指标：多视图图像评分 + 区域卷积 (Regional Convolution) 检测视角不一致性
对齐性指标：多视图字幕生成 → GPT-4 判断语义一致性

区域卷积的意义

传统方法在多视角上简单平均 CLIP 分数无法捕捉 Janus 问题——「正面照片」和「背面照片」对「一个人」的提示可能都有高分。区域卷积专门为检测这种视角间不一致而设计。

Eval3D — 通过一致性进行评估¶

新范式：不依赖人类偏好数据训练，利用基础模型作为客观「探针」。

核心逻辑：高质量 3D 资产的不同属性应当内在自洽
探针模型：DINOv2（语义特征）、Depth Anything（深度估计）、Zero-1-to-3（新视角合成）等
五个一致性维度：
几何一致性：3D 渲染法线图 vs 图像预测法线图
语义一致性：不同视角的 DINO 特征稳定性
结构一致性：真实渲染 vs 新视角合成预测
文本-3D 对齐性
美学
主要特点：零样本、像素级空间反馈、可解释的缺陷定位

Phase 4: 统一化与分层级时代¶

代表：3DGen-Bench, Hi3DEval

3DGen-Bench — 统一综合基准¶

首个统一 Text→3D 和 Image→3D 两类任务的评估。

规模：1,020 提示 × 19 模型 = 11,220 个 3D 资产
混合标注：68,000 众包投票 + 56,000 专家多维度分数
五个维度：几何合理性、几何细节、纹理质量、几何-纹理一致性、提示对齐性
互补工具套件：
3DGen-Score (基于 CLIP)：快速「温度计」—— 大规模排序
3DGen-Eval (基于 MLLM)：深度「诊断医生」—— 可解释性强

Hi3DEval — 分层级精细诊断¶

评估粒度进一步细化：从「评分员」到「病理分析专家」。

规模：30 个模型 × 15,300 资产，含 4K 对象级 + 23K 部件级 + 11K 材质级标注
分层级评估：

层级	评估内容	特征表示
对象级 (Object)	整体几何、纹理、对齐	基于视频表示
部件级 (Part)	语义部件质量（如椅子腿、手臂）	预训练 3D 特征
材质级 (Material)	PBR 物理材质属性（反照率、金属度、饱和度）	标准化重打光渲染

M²AP：多智能体、多模态自动化标注流程

分层级诊断的价值

一个模型可能整体形状优异（对象级高分），但精细部件有缺陷（部件级低分），或木头材质缺乏真实高光（材质级低分）。这种诊断能力将模糊的「质量不行」分解为可操作的工程问题。

组合 Mesh 评估覆盖¶

多个 Benchmark 覆盖了多物体组合生成的评估：

MATE-3D：8 类提示中包含「组合 (Grouped)」「动作 (Action)」「空间 (Spatial)」
T³Bench：「多对象集 (Multi-Object Set)」
3DGen-Bench：覆盖「单对象、多对象和微场景」

使用建议¶

需求	推荐框架
快速大规模模型排序	3D Arena, 3DGen-Score
训练自动化评估器	MATE-3D, 3DGen-Bench (专家标注)
深入诊断模型缺陷	Eval3D (空间反馈), Hi3DEval (分层级)
标准化评估	3DGen-Bench (统一 + 互补工具)
检测 Janus 问题	T³Bench (区域卷积)

未来方向¶

超越静态对象：可动对象（绑定/驱动）、4D 动态场景、物理交互
场景级组合评估：多物体空间关系、遮挡、风格一致性
标准化协议：统一渲染管线、光照条件、后处理步骤
具身智能体评估：从「看起来怎么样」到「能做什么」——功能性评估