<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>CVPR on Xiong Jia</title>
        <link>https://Peraspera1.github.io/categories/cvpr/</link>
        <description>Recent content in CVPR on Xiong Jia</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <copyright>xj</copyright>
        <lastBuildDate>Fri, 25 Apr 2025 16:03:07 +0800</lastBuildDate><atom:link href="https://Peraspera1.github.io/categories/cvpr/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>EvolvingGrasp</title>
        <link>https://Peraspera1.github.io/p/evolvinggrasp/</link>
        <pubDate>Fri, 25 Apr 2025 16:03:07 +0800</pubDate>
        
        <guid>https://Peraspera1.github.io/p/evolvinggrasp/</guid>
        <description>&lt;img src="https://Peraspera1.github.io/images/EvolvingGrasp/cover.png" alt="Featured image of post EvolvingGrasp" /&gt;&lt;p&gt;由于在低多样性数据上训练的模型存在局限性，灵巧的机械手通常难以在复杂环境中有效地泛化。然而，现实世界本质上呈现了无限的场景范围，因此无法考虑所有可能的变化.&lt;/p&gt;
&lt;p&gt;**​​现有方法的局限​​：**传统灵巧抓取方法（优化型或基于学习的方法）依赖有限多样性的数据集，难以适应真实场景中无限的变化。扩散模型虽能生成多样抓取，但存在采样效率低、物理合理性不足的问题&lt;/p&gt;
&lt;p&gt;一个自然的解决方案是让机器人从复杂环境中的经验中学习，这种方法类似于进化，系统通过持续反馈进行改进，从失败和成功中学习，并迭代以实现最佳性能。
也就是在动态环境中实现抓取策略的持续优化，同时平衡效率与物理可行性。&lt;/p&gt;
&lt;h2 id=&#34;问题定义&#34;&gt;问题定义
&lt;/h2&gt;&lt;p&gt;输入​​：物体点云 $O\in\mathbb{R}^{N\times3}$ ，表示物体的几何形状。&lt;/p&gt;
&lt;p&gt;输出：灵巧手的抓取姿态参数 x&lt;/p&gt;
&lt;h2 id=&#34;方法&#34;&gt;方法
&lt;/h2&gt;&lt;p&gt;对于一个物体点云O，模型会通过预测噪声，然后去噪得到多个手部姿态的样本。这个样本里有正样本和负样本（判断正负样本的方式是在仿真加扰动，有一些metrics去判断，也可以由人来选择）。然后根据HPO的损失函数来调整模型参数（如LoRA微调），使未来生成的姿态更偏向成功分布，而非直接修改去噪步骤的参数。&lt;/p&gt;
&lt;h2 id=&#34;hpo&#34;&gt;HPO
&lt;/h2&gt;&lt;p&gt;​Handpose-wise Preference Optimization (HPO) 基于偏好对齐的进化式抓取生成&lt;/p&gt;
&lt;p&gt;​​目标​​：通过对比正样本（成功抓取）和负样本（失败抓取）的差异，优化模型生成抓取姿态的后验概率分布。&lt;/p&gt;
&lt;p&gt;使用Bradley-Terry模型定义偏好概率：
$p_\mathrm{BT}(x_0^w\succ x_0^l)=\sigma(r(x_0^w)-r(x_0^l))$&lt;/p&gt;
&lt;p&gt;HPO损失函数:&lt;/p&gt;
&lt;p&gt;$\mathcal{L}_{\mathrm{HPO}}=\mathbb{E}\log\sigma\left(\sum_{i=1}^{N_{\mathrm{suc}}}\log\frac{\pi_\theta(x_{n-1}^i|x_n^i)}{\pi_{\mathrm{ref}}(x_{n-1}^i|x_n^i)}-\sum_{j=1}^{N_{\mathrm{fail}}}\log\frac{\pi_\theta(x_{n-1}^j|x_n^j)}{\pi_{\mathrm{ref}}(x_{n-1}^j|x_n^j)}\right)$&lt;/p&gt;
&lt;p&gt;通过正样本（成功抓取）和负样本（失败抓取）的对数概率比优化策略，使模型偏好高质量抓取。&lt;/p&gt;
&lt;h3 id=&#34;bradley-terry模型&#34;&gt;​​Bradley-Terry模型
&lt;/h3&gt;&lt;p&gt;Bradley-Terry模型是一种用于​​配对比较（Pairwise Comparison）​​的概率模型，最初用于预测竞技比赛中选手的胜负概率。&lt;/p&gt;
&lt;p&gt;每个选项（如选手或抓取姿态）有一个隐式“强度值”​​（即奖励函数值 r(x)）。&lt;/p&gt;
&lt;p&gt;Example: 选手A的强度值 r(A)=2，选手B的强度值 r(B)=1  根据Bradley-Terry模型，A战胜B的概率为 $\frac{e^2}{e^2+e^1}\approx73\%$&lt;/p&gt;
&lt;p&gt;在论文中，抓取姿态的“强度值”由隐式奖励函数 r(x) 表示（显式的奖励函数，如“接触点数越多越好”），代表抓取姿态的质量（如稳定性、防穿透性），那么偏好概率公式由以下方程表示：&lt;/p&gt;
&lt;p&gt;$p_{\mathrm{BT}}(x^w\succ x^l)=\sigma(r(x^w)-r(x^l))=\frac{1}{1+e^{-(r(x^w)-r(x^l))}}$&lt;/p&gt;
&lt;p&gt;$x^w$是成功样本，$x^l$是失败样本，如果 $x^w$ 比 $x^l$更优,则 $r(x^w)&gt;r(x^l)$ ,概率趋近于1;反之趋近于0。&lt;/p&gt;
&lt;h2 id=&#34;pcm&#34;&gt;PCM
&lt;/h2&gt;&lt;p&gt;PCM的核心，一是通过一致性模型框架压缩推理步骤，而是引入物理约束。&lt;/p&gt;
&lt;h3 id=&#34;一致性模型&#34;&gt;一致性模型
&lt;/h3&gt;&lt;p&gt;从预训练的扩散模型（教师模型）中蒸馏出一个轻量级的一致性模型（学生模型），从而将扩散模型的去噪过程（数百步）压缩为​​极少数步骤​​（2-8步），直接学习从噪声到干净数据的映射&lt;/p&gt;
&lt;h4 id=&#34;自洽性&#34;&gt;自洽性
&lt;/h4&gt;&lt;p&gt;模型在不同时间步（timestep）对同一噪声输入的预测结果指向同一数据点​​（即去噪后的干净数据）。例如，输入一个噪声样本$x_t$, (对应时间步 t)，模型应直接预测出最终去噪结果$x_0$。输入另一个噪声样本$x_{t&#39;}$，对应时间步$t&#39;$，模型预测的$x_0$应与前者的结果一致。&lt;/p&gt;
&lt;p&gt;那么自洽性损失的定义如下：&lt;/p&gt;
&lt;p&gt;$\mathcal{L}_{\text{consistency}}=\mathbb{E}_{t,t^{\prime}}\left[\|f_\theta(x_t,t)-f_\theta(x_{t^{\prime}},t^{\prime})\|^2\right]$&lt;/p&gt;
&lt;p&gt;在训练时，随机采样两个时间步 t 和 t&amp;rsquo;，并通过数值 ODE 求解器（如 DDIM）生成相邻时间步的噪声样本$x_t$和$x_{t&#39;}$。
模型需预测两者的去噪结果$x_0$，并通过损失函数强制它们的预测一致。&lt;/p&gt;
&lt;h4 id=&#34;模型蒸馏&#34;&gt;模型蒸馏
&lt;/h4&gt;&lt;p&gt;教师模型​​：传统扩散模型需要 100+ 步去噪（如 DDPM），每一步迭代修正噪声。&lt;/p&gt;
&lt;p&gt;​​学生模型（PCM）​​：通过​​蒸馏（Distillation）​​将教师模型的多步去噪过程压缩为​​单步映射​​（从任意噪声$x_t$直接预测$x_0$）。&lt;/p&gt;
&lt;p&gt;教师模型使用大规模抓取数据集（如 DexGraspNet、MultiDex）训练传统的扩散模型。&lt;/p&gt;
&lt;p&gt;学生模型在推理时需满足物理可行性（如避免穿透、保持接触稳定性）。为此，在采样过程中引入​​梯度引导​​：&lt;/p&gt;
&lt;p&gt;$\hat{\mu}_\theta(x_t,t)=\mu_\theta(x_t,t)+\sum_{i=1}^m\gamma_i\nabla_{x_t}\mathcal{L}_{\mathrm{PA}_i}(F_\theta(x_t,t),\epsilon_\theta)$&lt;/p&gt;
&lt;p&gt;学生模型本身是单步映射，但实际应用中通过 2-8 步迭代逐步修正噪声，以提升稳定性。&lt;/p&gt;
&lt;h2 id=&#34;评估指标&#34;&gt;评估指标
&lt;/h2&gt;&lt;h3 id=&#34;suc6&#34;&gt;Suc.6
&lt;/h3&gt;&lt;p&gt;Success rate Suc.6 measures the proportion of grasping poses where the object’s displacement does not exceed 2 cm in all six axial directions (±X, ±Y , ±Z), evaluating multi-directional stability.&lt;/p&gt;
&lt;p&gt;在仿真器中给物体一个扰动，看物体在六个方向上的移动会不会超过2cm。需要六个方向都小于2cm才算成功。&lt;/p&gt;
&lt;h3 id=&#34;suc1&#34;&gt;Suc.1
&lt;/h3&gt;&lt;p&gt;Suc.1 measures the proportion where displacement does not exceed 2cm in at least one direction, assessing single-direction stability.&lt;/p&gt;
&lt;p&gt;在仿真器中给物体一个扰动，看物体在单个方向上的移动会不会超过2cm。&lt;/p&gt;
&lt;h3 id=&#34;pen&#34;&gt;Pen.
&lt;/h3&gt;&lt;p&gt;Pen. indicates the maximum penetration depth (mm) between the hand and the object, with lower values suggesting more physically plausible grasps.&lt;/p&gt;
&lt;p&gt;手与物体之间的最大穿透深度 （mm），值越低表示物理上越合理。&lt;/p&gt;
&lt;p&gt;结果如下（论文中的metrics似乎单位错了？）：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/EvolvingGrasp/metrics.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;metrics&#34;
	
	
&gt;&lt;/p&gt;
&lt;h2 id=&#34;手部姿态参数表示&#34;&gt;手部姿态参数表示​
&lt;/h2&gt;&lt;p&gt;抓取姿态 x 由三部分组成：
$x=\left\{\theta_h\in\mathbb{R}^{24},T_{\mathrm{global}}\in\mathbb{R}^3,R_{\mathrm{global}}\in SO(3)\right\}$&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;​关节角度&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;​​参数​​： $x=  \theta_h\in \mathbb{R}^{24}$&lt;/p&gt;
&lt;p&gt;​​含义​​：控制手部24个关节的弯曲角度（如手指的屈伸、侧展）。&lt;/p&gt;
&lt;p&gt;​​作用​​：决定手指的局部形状，例如手指如何包裹物体。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;​​全局平移&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;​​参数​​： $T_{\mathrm{global}}\in\mathbb{R}^3$&lt;/p&gt;
&lt;p&gt;​​含义​​：手部基坐标系（如掌心）在三维空间中的平移坐标 (x,y,z)。&lt;/p&gt;
&lt;p&gt;​​作用​​：确定手部相对于目标物体的位置（如手距离物体的远近）。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;​​全局旋转&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;​​参数​​：$ R_{\mathrm{global}}\in SO(3)$&lt;/p&gt;
&lt;p&gt;​​含义​​：手部基坐标系的三维旋转矩阵（属于特殊正交群 SO(3)），表示手部的朝向（如掌心朝上/朝下）。&lt;/p&gt;
&lt;p&gt;​​作用​​：决定手部在空间中的摆放方向，影响抓取角度（如正握、侧握）&lt;/p&gt;
</description>
        </item>
        <item>
        <title>SLAT</title>
        <link>https://Peraspera1.github.io/p/slat/</link>
        <pubDate>Wed, 02 Apr 2025 12:01:01 +0800</pubDate>
        
        <guid>https://Peraspera1.github.io/p/slat/</guid>
        <description>&lt;img src="https://Peraspera1.github.io/images/SLAT/cover.png" alt="Featured image of post SLAT" /&gt;&lt;h2 id=&#34;论文信息&#34;&gt;论文信息
&lt;/h2&gt;&lt;h3 id=&#34;信息概览&#34;&gt;信息概览
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;CVPR 2025&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;论文题目：&lt;/strong&gt; Structured 3D Latents for Scalable and Versatile 3D Generation&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;论文单位：&lt;/strong&gt; THU&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;是否开源：&lt;/strong&gt; &lt;a class=&#34;link&#34; href=&#34;https://trellis3d.github.io&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;是&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;总结：&lt;/strong&gt;
输入文本或图像，输出3D模型，并且有灵活的输出格式选择和本地 3D 编辑功能。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;论文细节&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;结构化潜在表示slat&#34;&gt;结构化潜在表示（SLAT）
&lt;/h2&gt;&lt;p&gt;SLAT 的核心思想是将3D资产的几何和外观信息编码为一个稀疏的3D网格 + 密集视觉特征的联合表示。具体设计如下：&lt;/p&gt;
&lt;h3 id=&#34;稀疏3d网格结构&#34;&gt;稀疏3D网格结构
&lt;/h3&gt;&lt;p&gt;定义：对3D资产$\mathcal{O}$，定义一个分辨率为$N^3$（默认 $N=64$）的网格，仅标记与物体表面相交的“活跃体素”（active voxels），形成稀疏结构$\{\bm{p}_i\}_{i=1}^L$（$L \ll N^3$）。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/SLAT/def1.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;slat&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;优势：稀疏性支持高效高分辨率建模，同时保留局部性（便于后续编辑）。&lt;/p&gt;
&lt;h3 id=&#34;局部潜在向量&#34;&gt;局部潜在向量
&lt;/h3&gt;&lt;p&gt;每个活跃体素 $p_i$ 关联一个局部潜在向量 $z_i ∈ R^C$，用于编码该区域的几何和外观细节。&lt;/p&gt;
&lt;p&gt;特征来源：通过多视角渲染（150张随机视角图像），用预训练的 DINOv2 提取视觉特征，投影到体素并平均聚合，得到初始特征$ f_i$，再通过稀疏VAE编码为 $z_i$。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/SLAT/def2.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;slat2&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;编码与解码流程&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;编码过程&#34;&gt;编码过程
&lt;/h2&gt;&lt;h3 id=&#34;视觉特征聚合&#34;&gt;视觉特征聚合
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;渲染多视角图像 → DINOv2 提取特征 → 投影到 3D 网格，生成稀疏特征 $f = {(f_i, p_i)}$。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;稀疏vae编码&#34;&gt;稀疏VAE编码
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;使用基于 Transformer 的编码器 E，将 f 映射为结构化潜在空间变量 $z = {(z_i, p_i)}$。同时，输入的特征还会根据p加上一个正弦位置编码并进行序列化以便于输入到
网络中处理。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;关键模块&#34;&gt;关键模块
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;3D Shifted Window Attention（Swin Transformer 这块我还没看懂），在稀疏体素间高效传递局部信息。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;多格式解码&#34;&gt;多格式解码
&lt;/h2&gt;&lt;p&gt;SLAT 支持通过不同解码器生成多种 3D 表示：&lt;/p&gt;
&lt;h3 id=&#34;3d高斯dgs&#34;&gt;3D高斯（DGS）
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;每个 $z_i$ 解码为 $K=32$ 个高斯球（位置、颜色、透明度等），通过体积渲染损失$（L1 + SSIM + LPIPS）$训练。&lt;/li&gt;
&lt;li&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/SLAT/gs1.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;slat3&#34;
	
	
&gt;&lt;/p&gt;
&lt;h3 id=&#34;辐射场drf&#34;&gt;辐射场（DRF）
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;解码为局部辐射体积（CP分解形式），用类似损失优化。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/SLAT/rf1.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;slat3&#34;
	
	
&gt;&lt;/p&gt;
&lt;h3 id=&#34;网格dm&#34;&gt;网格（DM）
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;通过稀疏卷积上采样到 $256^3$，用 FlexiCubes 提取网格，基于深度/法线图损失训练。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/SLAT/mesh1.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;slat3&#34;
	
	
&gt;&lt;/p&gt;
&lt;h3 id=&#34;训练策略&#34;&gt;训练策略
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;先以 3D 高斯为目标训练 VAE，再固定编码器，单独训练其他解码器。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;两阶段生成模型&#34;&gt;两阶段生成模型
&lt;/h2&gt;&lt;h3 id=&#34;稀疏结构生成&#34;&gt;稀疏结构生成
&lt;/h3&gt;&lt;p&gt;目标：生成3D资产的稀疏体素结构 $\{\bm{p}_i\}_{i=1}^L$&lt;/p&gt;
&lt;p&gt;输入：文本（CLIP特征）或图像（DINOv2特征）。&lt;/p&gt;
&lt;p&gt;模型：修正流变换器 $G_S$，生成低分辨率（$16^3$）的稠密特征网格$S$，解码为二值活跃体素网格$O$。&lt;/p&gt;
&lt;p&gt;先把随机初始化的稠密特征网络与位置编码并在一起，然后通过3D卷积VAE压缩为低分辨率特征$\boldsymbol{S}\in\mathbb{R}^{16\times16\times16\times8}$，在这个latent空间中去噪，条件是输入的文本或图片，之后将生成的 S 解码为稠密二值网格$\boldsymbol{O}\in\{0,1\}^{64\times64\times64}$，再转换为稀疏活跃体素 $\{p_i\}$。&lt;/p&gt;
&lt;h4 id=&#34;关键设计&#34;&gt;关键设计
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;使用 Conditional Flow Matching (CFM) 目标，优化噪声到数据的向量场。
$\mathcal{L}_{CFM}(\theta)=\mathbb{E}_{t,\boldsymbol{x}_0,\boldsymbol{\epsilon}}\|\boldsymbol{v}_{\boldsymbol{\theta}}(\boldsymbol{x},t)-(\boldsymbol{\epsilon}-\boldsymbol{x}_0)\|_2^2.$&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;引入 logit-Normal(1,1) 时间步采样，提升稳定性。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;局部潜在生成&#34;&gt;局部潜在生成
&lt;/h3&gt;&lt;p&gt;输入：上一步的稀疏结构 ${p_i}$ + 条件提示。&lt;/p&gt;
&lt;p&gt;目标:为稀疏结构 $\{\boldsymbol{p}_i\}$ 生成局部潜在向量 $\{\boldsymbol{z}_i\}$&lt;/p&gt;
&lt;p&gt;模型：稀疏变换器 $G_L$，直接生成潜在向量 ${z_i}$。&lt;/p&gt;
&lt;h3 id=&#34;稀疏卷积下采样&#34;&gt;稀疏卷积下采样
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;将 64³ 体素打包为更短序列，提升效率。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;跨注意力注入条件&#34;&gt;跨注意力注入条件
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;文本/图像特征作为 Key-Value。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;局部编辑能力&#34;&gt;局部编辑能力
&lt;/h2&gt;&lt;p&gt;SLAT 的稀疏性和局部性天然支持灵活编辑：&lt;/p&gt;
&lt;h3 id=&#34;细节变体生成&#34;&gt;细节变体生成
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;固定稀疏结构，仅重新生成 ${z_i}$（通过新文本提示引导）。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;区域特定编辑&#34;&gt;区域特定编辑
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;指定编辑区域的边界框，结合 Repaint 策略：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;第一阶段：仅生成框内新结构。&lt;/li&gt;
&lt;li&gt;第二阶段：生成框内细节，保持框外内容不变。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;网络模型架构&#34;&gt;网络模型架构
&lt;/h2&gt;&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/SLAT/net.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;slat3&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;3D-W-MHA: 3D窗口注意力机制
FFN：指任何前馈型的神经网络，可以有多个层，也可以没有隐藏层
MLP：是一种特定的 FFN，通常具有至少一层隐藏层，并且每层之间是全连接的&lt;/p&gt;
&lt;h2 id=&#34;论文结果&#34;&gt;论文结果
&lt;/h2&gt;&lt;p&gt;该方法与其他方法的对比&lt;/p&gt;
&lt;p&gt;重建质量的对比&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/SLAT/re3.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;slat3&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;可视化结果对比&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/SLAT/re2.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;slat3&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;更加细节的结果&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/SLAT/re4.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;slat3&#34;
	
	
&gt;&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Decoupledgaussian</title>
        <link>https://Peraspera1.github.io/p/decoupledgaussian/</link>
        <pubDate>Sat, 15 Mar 2025 20:32:40 +0800</pubDate>
        
        <guid>https://Peraspera1.github.io/p/decoupledgaussian/</guid>
        <description>&lt;img src="https://Peraspera1.github.io/images/decoupledgs/cover.png" alt="Featured image of post Decoupledgaussian" /&gt;&lt;p&gt;这篇工作主要解决的是物体表面分离
在physgaussian的基础上&lt;/p&gt;
&lt;p&gt;相关论文
Vismay Modi, Nicholas Sharp, Or Perel, Shinjiro Sueda, and David IW Levin. Simplicits: Mesh-free, geometry-agnostic elastic simulation. ACM Transactions on Graphics (TOG), 43(4):1–11, 2024. 2&lt;/p&gt;
&lt;p&gt;Ying Jiang, Chang Yu, Tianyi Xie, Xuan Li, Yutao Feng, Huamin Wang, Minchen Li, Henry Lau, Feng Gao, Yin Yang, et al. Vr-gs: A physical dynamics-aware interactive gaussian splatting system in virtual reality. In ACM SIGGRAPH 2024 Conference Papers, pages 1–1, 2024. 1, 2, 4, 5, 6,&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Phygaussian</title>
        <link>https://Peraspera1.github.io/p/physgaussian/</link>
        <pubDate>Wed, 19 Feb 2025 00:00:00 +0000</pubDate>
        
        <guid>https://Peraspera1.github.io/p/physgaussian/</guid>
        <description>&lt;img src="https://Peraspera1.github.io/images/physgaussian_cover.jpg" alt="Featured image of post Phygaussian" /&gt;&lt;h1 id=&#34;论文信息&#34;&gt;论文信息
&lt;/h1&gt;&lt;h2 id=&#34;信息概览&#34;&gt;信息概览
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;CVPR 2024 Highlight&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;论文题目：&lt;/strong&gt; PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;论文单位：&lt;/strong&gt; UCLA&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;是否开源：&lt;/strong&gt; 是&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;总结：&lt;/strong&gt;
PhysGaussian是第一篇将3D高斯核（用于渲染）与物理属性（如速度、应变、应力）相结合，使其能够模拟牛顿力学中的动态行为，适用于多种不同材料（如弹性物体、金属、非牛顿流体等）。&lt;/p&gt;
&lt;h2 id=&#34;论文思路&#34;&gt;论文思路
&lt;/h2&gt;&lt;p&gt;核心思想是what you see is what you simulate。&lt;/p&gt;
&lt;p&gt;传统的图形学物理引擎往往会导致模拟与可视化之间的差别，但自然界中材料的物理特性与视觉外观本质上也是交织在一起的，受此启发，本文将物理学赋予 3D 高斯核，赋予它们运动学属性（如速度和应变）以及机械属性（如弹性能、应力和塑性），进而弥补这一差别。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/physgaussian/methodoverview.jpg&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;代码整体框架&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;首先需要输入一个物体的多视角图片，然后按照传统3DGS的方式重建物体，得到物体的3DGS表示(不要渲染)，即把物体离散为了一个个高斯（高斯的中心、不透明度、协方差矩阵和球谐系数）&lt;/p&gt;
&lt;h1 id=&#34;代码debug记录&#34;&gt;代码debug记录
&lt;/h1&gt;</description>
        </item>
        <item>
        <title>Generative Image Dynamics</title>
        <link>https://Peraspera1.github.io/p/generativeid/</link>
        <pubDate>Mon, 17 Feb 2025 00:00:00 +0000</pubDate>
        
        <guid>https://Peraspera1.github.io/p/generativeid/</guid>
        <description>&lt;img src="https://Peraspera1.github.io/post/GID/GIDfront.jpg" alt="Featured image of post Generative Image Dynamics" /&gt;&lt;h1 id=&#34;论文信息&#34;&gt;论文信息
&lt;/h1&gt;&lt;p&gt;&lt;strong&gt;CVPR 2024 Best Paper&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;论文题目：&lt;/strong&gt; Generative Image Dynamics&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;是否开源：&lt;/strong&gt; 否&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;总结：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;一种从静态图像生成动态运动的方法，特别是针对自然的振荡运动，如树木在风中摇动、花朵或蜡烛火焰的摆动等。
核心思想是使用频谱体积，这是一种基于频率的像素运动表示，通过真实视频序列进行学习。&lt;/p&gt;
&lt;h1 id=&#34;细节&#34;&gt;细节
&lt;/h1&gt;&lt;p&gt;输入单张图片$I_0$, 输出${\hat{I}_1, \hat{I}_2, ..., \hat{I}_T}$，&lt;/p&gt;
&lt;p&gt;用LDM从输入的单张图片中预测谱体积
$\mathcal{S}=\left(S_{f_0},S_{f_1},...,S_{f_{K-1}}\right)$
，然后再利用这个谱体积恢复$\mathcal{F}=(F_1,F_2,...,F_T)$，即后面T个时刻的运动。$F_t(p)$ 代表t时刻$I_0$中第p个像素的位置。（$I_t^\prime(\mathbf{p}+F_t(\mathbf{p}))=I_0(\mathbf{p})$）&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;spectral volume（谱体积）：&lt;/strong&gt; 从视频中提取的每像素轨迹的时间傅里叶变换。&lt;/p&gt;
&lt;p&gt;频谱分析-&amp;gt;解决生成视频的长期时间一致性??&lt;/p&gt;
&lt;p&gt;k个频率，(x,y)+- 共4K个channel&lt;/p&gt;
&lt;p&gt;对于一张 $H \times W$的图片，每个像素p可以表示为$I_{t}(p) = \Sigma_{k} [Asin(k \omega x t) + B cos(k \omega x t)]$&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;值得阅读的参考论文&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Myers Abraham Davis. Visual vibration analysis. PhD thesis, Massachusetts Institute of Technology, 2016.&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Mast3r-slam</title>
        <link>https://Peraspera1.github.io/p/mast3rslam/</link>
        <pubDate>Tue, 17 Dec 2024 00:00:00 +0000</pubDate>
        
        <guid>https://Peraspera1.github.io/p/mast3rslam/</guid>
        <description>&lt;img src="https://Peraspera1.github.io/p/mast3rslam/image.png" alt="Featured image of post Mast3r-slam" /&gt;&lt;h1 id=&#34;mast3r---slam&#34;&gt;Mast3r - SLAM
&lt;/h1&gt;&lt;h2 id=&#34;定义&#34;&gt;定义
&lt;/h2&gt;&lt;p&gt;dust3r/mast3r 输入$\mathcal{I}^i,\mathcal{I}^j\in\mathbb{R}^{H\times W\times3}$&lt;/p&gt;
&lt;p&gt;得到$\mathbf{X}_i^i,\mathbf{X}_i^j\in\mathbb{R}^{H\times W\times3}$及对应的置信度
$\mathrm{C}_i^i,\mathrm{C}_i^j\in\mathbb{R}^{H\times W\times1}$&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;$\mathbf{X}_j^i$是图片i的点云在相机j下面的坐标&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;相比于dust3r,mast3r还输出了每个像素的特征向量$\mathrm{D}_i^i,\mathrm{D}_i^j\in\mathbb{R}^{H\times W\times d}$，及$\mathrm{Q}_i^i,\mathrm{Q}_i^j\in\mathbb{R}^{H\times W\times1}$。类似于特征子和描述子。&lt;/p&gt;
&lt;p&gt;将mast3r的输出结果合并记为：$\mathcal{F}_M(\mathcal{I}^i,\mathcal{I}^j)$&lt;/p&gt;
&lt;p&gt;一对图片的匹配集合表示为：$\mathbf{m}_{i,j}=\mathcal{M}(\mathbf{X}_i^i,\mathbf{X}_i^j,\mathbf{D}_i^i,\mathbf{D}_i^j)$&lt;/p&gt;
&lt;h1 id=&#34;整体思路&#34;&gt;整体思路
&lt;/h1&gt;&lt;p&gt;1 前端优化：逐帧优化相机位姿，构建局部地图。&lt;/p&gt;
&lt;p&gt;2 后端优化：全局优化所有关键帧和地图点，修正漂移和保证全局一致性。&lt;/p&gt;
&lt;h2 id=&#34;前端优化&#34;&gt;前端优化
&lt;/h2&gt;&lt;p&gt;目标有两个：&lt;/p&gt;
&lt;p&gt;1 在新帧和最近关键帧之间进行相机位姿的局部优化。&lt;/p&gt;
&lt;p&gt;2 在局部范围内融合点地图（点云融合）。&lt;/p&gt;
&lt;h3 id=&#34;点图匹配&#34;&gt;点图匹配
&lt;/h3&gt;&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/mast3rslam/thesis1.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;原文&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;数学推导如下（从几何角度上理解更为直观）：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/mast3rslam/math1.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;math&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;为了进行局部的位姿优化，首先需要找到两张图之间的对应点：&lt;/p&gt;
&lt;p&gt;projective data-association：&lt;/p&gt;
&lt;p&gt;利用相机投影模型（例如针孔模型或其他中心投影模型，本文用的是射线），将 3D 点投影到图像平面上，并找到对应的像素位置。在投影到的像素周围局部搜索对应的观测点（例如通过颜色、特征等进行匹配）。
通过这种投影与局部搜索，实现高效且准确的点匹配，而不需要全局特征匹配（如耗时的 brute-force 特征匹配）。&lt;/p&gt;
&lt;p&gt;但是这个模型需要准确的相机参数-&amp;gt;构建相机模型&lt;/p&gt;
&lt;p&gt;def : 对于一幅图像中的点云，光线定义为从相机中心指向某个 3D 点的&lt;strong&gt;单位&lt;/strong&gt;向量。
作者采用的方式：基于迭代优化求解，最小化投影光线之间的角度误差优化的参数是：
$\mathbf{T}= \begin{bmatrix} s\mathbf{R} &amp; \mathbf{t} \\ 0 &amp; 1 \end{bmatrix}$， 及图片之间的像素的匹配关系&lt;/p&gt;
$$\mathbf{p}^*=\arg\min_\mathbf{p}\left\|\psi\left([\mathbf{X}_i^i]_\mathbf{p}\right)-\psi\left(\mathbf{x}\right)\right\|^2.$$$$\left\|\psi_1-\psi_2\right\|^2=2(1-\cos\theta),\quad\cos\theta=\psi_1^T\psi_2.$$&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/p/mast3rslam/image-1.png&#34;
	width=&#34;605&#34;
	height=&#34;237&#34;
	
	loading=&#34;lazy&#34;
	
		alt=&#34;point match&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;255&#34;
		data-flex-basis=&#34;612px&#34;
	
&gt;&lt;/p&gt;
&lt;p&gt;只有外参和尺度，没有估计内参，利用cuda并行加速&lt;/p&gt;
&lt;p&gt;过滤点的方式：过滤三维空间中距离相差较大的点(文中没有提到具体的做法)&lt;/p&gt;
&lt;h4 id=&#34;点图匹配的优化方法&#34;&gt;点图匹配的优化方法
&lt;/h4&gt;&lt;p&gt;目标：  找到两张图片之间的对应点&lt;/p&gt;
&lt;p&gt;初始化：恒等映射，即按像素坐标映射&lt;/p&gt;
&lt;p&gt;优化的方程：&lt;/p&gt;
$$\mathbf{p}^*=\arg\min_\mathbf{p}\left\|\psi\left([\mathbf{X}_i^i]_\mathbf{p}\right)-\psi\left(\mathbf{x}\right)\right\|^2.$$&lt;p&gt;优化的变量：以第一张图片为参考系，逐像素优化第二张图片的对应点的像素坐标(u,v)，这个过程可以在GPU上并行运算(cuda)，并且文中提到只要10次迭代就可以收敛(速度比mast3r找对应点的方式更快吗?)&lt;/p&gt;
&lt;h3 id=&#34;跟踪&#34;&gt;跟踪
&lt;/h3&gt;&lt;p&gt;估计当前帧(f)和最后一个关键帧(k)的相对位姿变换&lt;/p&gt;
&lt;p&gt;什么叫使用网络的单次传递来估计变换？&lt;/p&gt;
&lt;p&gt;损失函数: mast3r会估计出图片1的在图片2坐标系下的点云、图片2对应的点云在图片2坐标系下的点云（反过来也是一样的），这两个点云只相差了一个坐标变换矩阵（以及尺度？同一个pair下面也会有尺度不一致吗？）。这个损失函数应该只考虑了置信度较高的特征点对应的像素对应的点云。&lt;/p&gt;
$$E_p=\sum_{m,n\in\mathbf{m}_{f,k}}\left\|\frac{\tilde{\mathbf{X}}_{k,n}^k-\mathrm{T}_{kf}\mathrm{X}_{f,m}^f}{w(\mathrm{q}_{m,n},\sigma_p^2)}\right\|_\rho$$$$\mathrm{q}_{m,n}=\sqrt{\mathrm{Q}_{f,m}^f\mathrm{Q}_{f,n}^k}$$&lt;p&gt;
q是描述子的内积;
(这个$\sigma$没有定义？)&lt;/p&gt;
$$w(\mathbf{q},\sigma^2)=
\begin{cases}
\sigma^2/\mathbf{q} &amp; \mathbf{q}&gt;\mathbf{q}_{min} \\
\infty &amp; \mathrm{otherwise} &amp; &amp; 
\end{cases}.$$&lt;p&gt;如何解决3D点深度不一致的问题-&amp;gt;光线误差（而不是重投影）+点云融合&lt;/p&gt;
&lt;p&gt;利用射线的角度误差而非投影误差（这个误差对深度不敏感）&lt;/p&gt;
$$E_r=\sum_{m,n\in\mathbf{m}_{f,k}}\left\|\frac{\psi\left(\tilde{\mathbf{X}}_{k,n}^k\right)-\psi\left(\mathbf{T}_{kf}\mathbf{X}_{f,m}^f\right)}{w(\mathbf{q}_{m,n},\sigma_r^2)}\right\|_\rho.$$&lt;p&gt;角度误差是有界的，基于射线的误差对异常值具有鲁棒性。因为：1.相比直接使用 3D 点误差，射线误差（角度误差）更鲁棒，因为它只考虑方向，而不依赖于深度的绝对精度。
避免尺度问题：2.由于单目 SLAM 中的尺度不确定性，使用射线误差能够更好地处理尺度问题。&lt;/p&gt;
&lt;p&gt;我们还包括一个关于距离相机中心的距离差的小权重的误差项。这防止了系统在纯旋转情况下退化，但较小的权重避免了像点位误差那样对位姿估计产生偏差。？？？&lt;/p&gt;
&lt;h3 id=&#34;点云融合&#34;&gt;点云融合
&lt;/h3&gt;&lt;p&gt;点云融合的方式，加权平均
&lt;/p&gt;
$$\tilde{\mathbf{X}}_{k}^{k}\leftarrow\frac{\tilde{\mathbb{C}}_{k}^{k}\tilde{\mathbb{X}}_{k}^{k}+\mathbb{C}_{f}^{k}\left(\mathbb{T}_{kf}\mathbb{X}_{f}^{k}\right)}{\tilde{\mathbb{C}}_{k}^{k}+\mathbb{C}_{f}^{k}},\tilde{\mathbb{C}}_{k}^{k}\leftarrow\tilde{\mathbb{C}}_{k}^{k}+\mathbb{C}_{f}^{k}.$$&lt;p&gt;置信度直接相加吗？-&amp;gt;某一个点的置信度会越来越高&lt;/p&gt;
&lt;h2 id=&#34;后端优化&#34;&gt;后端优化
&lt;/h2&gt;&lt;h3 id=&#34;图的构建以及回环检测&#34;&gt;图的构建以及回环检测
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;怎么判断一个图片是否是关键帧？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;通过mast3r构建一个pair，同时输入最后一个关键帧和当前的图片，计算匹配的像素点的数量，如果这个数量低于某一个值，那就说明这个新加入的图片能够产生足够多的新的点云，因此就把这张图作为关键帧。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;graph的顺序是什么？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;按照时间顺序串联，同时维护一个边的集合，每次加入两个关键帧之间的边（双向）&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;局部的回环检测和全局的回环检测&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;采用MASt3R-SfM使用的聚合选择性匹配内核 (ASMK)框架(?)，用于从编码特征进行图像检索。
这样就能找到两张类似的图片来进行回环检测。（但是文章中没有提到增量式建立ASMK框架的过程以及检测到回环之后调整全局位姿的方法？）&lt;/p&gt;
&lt;h2 id=&#34;后端优化-1&#34;&gt;后端优化
&lt;/h2&gt;&lt;p&gt;后端优化的方法，对于边的集合中所有的图片一起进行优化&lt;/p&gt;
$$E_g=\sum_{i,j\in\mathcal{E}}\sum_{m,n\in\mathbf{m}_{i,j}}\left\|\frac{\psi\left(\tilde{\mathbf{X}}_{i,m}^i\right)-\psi\left(\mathbf{T}_{ij}\tilde{\mathbf{X}}_{j,n}^j\right)}{w(\mathbf{q}_{m,n},\sigma_r^2)}\right\|_\rho$$&lt;p&gt;假设集合中有N个关键帧，那么形成了2N个边（双向边，形成了回环），每个关键帧有7个自由度（3 个旋转、3 个平移和 1 个尺度）&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/p/mast3rslam/image.png&#34;
	width=&#34;1308&#34;
	height=&#34;525&#34;
	
	loading=&#34;lazy&#34;
	
		alt=&#34;整体框架&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;249&#34;
		data-flex-basis=&#34;597px&#34;
	
&gt;&lt;/p&gt;
&lt;h1 id=&#34;数学公式推导&#34;&gt;数学公式推导
&lt;/h1&gt;</description>
        </item>
        
    </channel>
</rss>
