跳转至

Benchmarks

Overview

3D 生成评估 Benchmark 的综述与发展分析。涵盖 6 个评估框架。


总览:六个评估框架对比

框架 任务 数据来源 评分范式 核心维度 独特之处
3D Arena Image→3D 众包 相对偏好 (ELO) 综合主观质量 社区驱动,12 万+ 投票
MATE-3D Text→3D 人类标注 绝对分数 (MOS) + HyperScore 语义对齐、几何、纹理、综合 多维度绝对评分 + 超网络评估器
T³Bench Text→3D 自动化 自动化分数 质量 (含视角一致性)、文本对齐 区域卷积检测 Janus 问题
3DGen-Bench Text/Image→3D 混合 (众包+专家) 相对偏好 + 绝对分数 几何合理性/细节、纹理、对齐 统一两任务 + 互补工具 (Score+Eval)
Eval3D Text/Image→3D 自动化 一致性分数 几何/语义/结构一致性、美学 基础模型探针,零样本,像素级反馈
Hi3DEval Text/Image→3D 专家标注 绝对分数 + 学习模型 对象级→部件级→材质级 分层级诊断,率先评估 PBR 材质

发展四阶段

Phase 1: 竞技场时代 — 众包偏好

代表:3D Arena

  • 核心方法:匿名成对比较 + ELO 评分系统
  • 数据规模:8,096 名用户,123,243 次投票
  • 评估粒度:单一综合质量("哪个更好?")
  • 关键发现
  • Gaussian Splat 比 Mesh 有 16.6 ELO 优势
  • 有纹理 vs 无纹理:144.1 ELO 差异

局限性

综合质量评分将几何准确性、纹理真实性、对齐度混淆为一个模糊分数。评估结果极易被表面美学特征主导,而非 3D 结构正确性。


Phase 2: 维度解耦时代 — 多维绝对评分

代表:MATE-3D / HyperScore

从「哪个更好」到「好到什么程度」的转变。

  • 数据集:1,280 个带纹理网格,8 类提示(单对象 4 类 + 多对象 4 类)
  • 标注:107,520 个独立评分(每资产 4 维度 × MOS 0-10)
  • 四个维度
  • 语义对齐性 (Semantic Alignment)
  • 几何质量 (Geometry Quality)
  • 纹理质量 (Texture Quality)
  • 综合质量 (Overall Quality)
  • HyperScore:超网络架构,根据评估维度条件动态生成预测头权重,单模型输出多维度专门分数

Phase 3: 自动化与伪影感知时代

代表:T³Bench, Eval3D

T³Bench — 自动化多视角评估

设计理念:针对 Janus 问题等 3D 特有伪影设计专门的自动化检测。

  • 分层提示集:单对象 → 带环境单对象 → 多对象(复杂度递增)
  • 两个自动化指标
  • 质量指标:多视图图像评分 + 区域卷积 (Regional Convolution) 检测视角不一致性
  • 对齐性指标:多视图字幕生成 → GPT-4 判断语义一致性

区域卷积的意义

传统方法在多视角上简单平均 CLIP 分数无法捕捉 Janus 问题——「正面照片」和「背面照片」对「一个人」的提示可能都有高分。区域卷积专门为检测这种视角间不一致而设计。

Eval3D — 通过一致性进行评估

新范式:不依赖人类偏好数据训练,利用基础模型作为客观「探针」。

  • 核心逻辑:高质量 3D 资产的不同属性应当内在自洽
  • 探针模型:DINOv2(语义特征)、Depth Anything(深度估计)、Zero-1-to-3(新视角合成)等
  • 五个一致性维度
  • 几何一致性:3D 渲染法线图 vs 图像预测法线图
  • 语义一致性:不同视角的 DINO 特征稳定性
  • 结构一致性:真实渲染 vs 新视角合成预测
  • 文本-3D 对齐性
  • 美学
  • 主要特点:零样本、像素级空间反馈、可解释的缺陷定位

Phase 4: 统一化与分层级时代

代表:3DGen-Bench, Hi3DEval

3DGen-Bench — 统一综合基准

首个统一 Text→3D 和 Image→3D 两类任务的评估。

  • 规模:1,020 提示 × 19 模型 = 11,220 个 3D 资产
  • 混合标注:68,000 众包投票 + 56,000 专家多维度分数
  • 五个维度:几何合理性、几何细节、纹理质量、几何-纹理一致性、提示对齐性
  • 互补工具套件
  • 3DGen-Score (基于 CLIP):快速「温度计」—— 大规模排序
  • 3DGen-Eval (基于 MLLM):深度「诊断医生」—— 可解释性强

Hi3DEval — 分层级精细诊断

评估粒度进一步细化:从「评分员」到「病理分析专家」。

  • 规模:30 个模型 × 15,300 资产,含 4K 对象级 + 23K 部件级 + 11K 材质级标注
  • 分层级评估
层级 评估内容 特征表示
对象级 (Object) 整体几何、纹理、对齐 基于视频表示
部件级 (Part) 语义部件质量(如椅子腿、手臂) 预训练 3D 特征
材质级 (Material) PBR 物理材质属性(反照率、金属度、饱和度) 标准化重打光渲染
  • M²AP:多智能体、多模态自动化标注流程

分层级诊断的价值

一个模型可能整体形状优异(对象级高分),但精细部件有缺陷(部件级低分),或木头材质缺乏真实高光(材质级低分)。这种诊断能力将模糊的「质量不行」分解为可操作的工程问题。


组合 Mesh 评估覆盖

多个 Benchmark 覆盖了多物体组合生成的评估:

  • MATE-3D:8 类提示中包含「组合 (Grouped)」「动作 (Action)」「空间 (Spatial)」
  • T³Bench:「多对象集 (Multi-Object Set)」
  • 3DGen-Bench:覆盖「单对象、多对象和微场景」

使用建议

需求 推荐框架
快速大规模模型排序 3D Arena, 3DGen-Score
训练自动化评估器 MATE-3D, 3DGen-Bench (专家标注)
深入诊断模型缺陷 Eval3D (空间反馈), Hi3DEval (分层级)
标准化评估 3DGen-Bench (统一 + 互补工具)
检测 Janus 问题 T³Bench (区域卷积)

未来方向

  1. 超越静态对象:可动对象(绑定/驱动)、4D 动态场景、物理交互
  2. 场景级组合评估:多物体空间关系、遮挡、风格一致性
  3. 标准化协议:统一渲染管线、光照条件、后处理步骤
  4. 具身智能体评估:从「看起来怎么样」到「能做什么」——功能性评估

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部