SLAT

论文信息

信息概览

CVPR 2025

论文题目： Structured 3D Latents for Scalable and Versatile 3D Generation

论文单位： THU

是否开源： 是

总结： 输入文本或图像，输出3D模型，并且有灵活的输出格式选择和本地 3D 编辑功能。

论文细节

结构化潜在表示（SLAT）

SLAT 的核心思想是将3D资产的几何和外观信息编码为一个稀疏的3D网格 + 密集视觉特征的联合表示。具体设计如下：

稀疏3D网格结构

定义：对3D资产$\mathcal{O}$，定义一个分辨率为$N^3$（默认 $N=64$）的网格，仅标记与物体表面相交的“活跃体素”（active voxels），形成稀疏结构$\{\bm{p}_i\}_{i=1}^L$（$L \ll N^3$）。

slat

优势：稀疏性支持高效高分辨率建模，同时保留局部性（便于后续编辑）。

局部潜在向量

每个活跃体素 $p_i$ 关联一个局部潜在向量 $z_i ∈ R^C$，用于编码该区域的几何和外观细节。

特征来源：通过多视角渲染（150张随机视角图像），用预训练的 DINOv2 提取视觉特征，投影到体素并平均聚合，得到初始特征$ f_i$，再通过稀疏VAE编码为 $z_i$。

slat2

编码与解码流程

编码过程

视觉特征聚合

渲染多视角图像 → DINOv2 提取特征 → 投影到 3D 网格，生成稀疏特征 $f = {(f_i, p_i)}$。

稀疏VAE编码

使用基于 Transformer 的编码器 E，将 f 映射为结构化潜在空间变量 $z = {(z_i, p_i)}$。同时，输入的特征还会根据p加上一个正弦位置编码并进行序列化以便于输入到网络中处理。

关键模块

3D Shifted Window Attention（Swin Transformer 这块我还没看懂），在稀疏体素间高效传递局部信息。

多格式解码

SLAT 支持通过不同解码器生成多种 3D 表示：

3D高斯（DGS）

每个 $z_i$ 解码为 $K=32$ 个高斯球（位置、颜色、透明度等），通过体积渲染损失$（L1 + SSIM + LPIPS）$训练。

slat3

辐射场（DRF）

解码为局部辐射体积（CP分解形式），用类似损失优化。

slat3

网格（DM）

通过稀疏卷积上采样到 $256^3$，用 FlexiCubes 提取网格，基于深度/法线图损失训练。

slat3

训练策略

先以 3D 高斯为目标训练 VAE，再固定编码器，单独训练其他解码器。

两阶段生成模型

稀疏结构生成

目标：生成3D资产的稀疏体素结构 $\{\bm{p}_i\}_{i=1}^L$

输入：文本（CLIP特征）或图像（DINOv2特征）。

模型：修正流变换器 $G_S$，生成低分辨率（$16^3$）的稠密特征网格$S$，解码为二值活跃体素网格$O$。

先把随机初始化的稠密特征网络与位置编码并在一起，然后通过3D卷积VAE压缩为低分辨率特征$\boldsymbol{S}\in\mathbb{R}^{16\times16\times16\times8}$，在这个latent空间中去噪，条件是输入的文本或图片，之后将生成的 S 解码为稠密二值网格$\boldsymbol{O}\in\{0,1\}^{64\times64\times64}$，再转换为稀疏活跃体素 $\{p_i\}$。

关键设计

使用 Conditional Flow Matching (CFM) 目标，优化噪声到数据的向量场。 $\mathcal{L}_{CFM}(\theta)=\mathbb{E}_{t,\boldsymbol{x}_0,\boldsymbol{\epsilon}}\|\boldsymbol{v}_{\boldsymbol{\theta}}(\boldsymbol{x},t)-(\boldsymbol{\epsilon}-\boldsymbol{x}_0)\|_2^2.$
引入 logit-Normal(1,1) 时间步采样，提升稳定性。