SLAM on Xiong Jia

NeuralFeels

Mon, 14 Apr 2025 20:34:24 +0800

信息概览

Science Robotics

论文题目： NeuralFeels with neural fields: Visuotactile perception for in-hand manipulation

论文单位： CMU

是否开源： 是

总结： 为了实现类人灵巧操作，机器人必须理解和推理其操作物体的空间关系。特别是在手内操作中，机器人需要估计物体的姿态（位姿）和形状。传统的机器人视觉系统通常面临视觉遮挡的问题，当物体被手或环境遮挡时，视觉数据会变得不完整，从而影响精度。

NeuralFeels方法使用了视觉（RGB-D摄像头）、**触觉（基于视觉的触觉传感器）和本体感知（机器人关节角度）**数据。这些数据通过在线神经场（Neural Field）模型进行处理，结合了多种感知输入，以获得更精确的物体位姿和形状估计

作者使用了Signed Distance Field (SDF)，这是一种基于距离的表示方法，可以高效地表示物体的表面。

NeuralFeels方法的一个关键特性是在线学习。在物体与机器人手进行交互时，系统会实时更新物体的3D表示（SDF）和位姿

工作流

系统首先通过视觉（RGB-D相机）和触觉（指尖DIGIT传感器）获取数据，利用Segment Anything Model（SAM）分割物体区域并排除手部遮挡，同时通过预训练的触觉变压器从触觉图像中提取接触深度；随后，前端处理生成的点云与深度信息输入后端，通过神经符号距离场（SDF）建模物体几何形状，并构建位姿图（包含SDF约束、帧间ICP配准和位姿平滑因子），采用交替优化策略——即固定位姿时通过梯度下降更新神经场参数，固定神经场时通过非线性优化（Levenberg-Marquardt算法）求解物体位姿，同时动态管理关键帧以平衡计算效率与全局一致性，最终在在线交互中实现物体形状的渐进式重建与姿态的稳定跟踪，触觉数据在视觉遮挡或噪声场景下显著补全局部几何信息，提升系统鲁棒性。

度量指标

Pose Metric（位姿度量）

首先是位姿，从估计的网格中下采样一些点，并与离其最近的真实点作差

传统的成对距离方法需要在估计点和真实点之间建立逐对对应关系，对于每个估计点，都需要找到多个真实点并计算距离，这样会导致计算量迅速增加，尤其是当物体复杂或者有大量点时，计算量会非常庞大。

ADD-S通过只计算每个估计点和最近点的距离，避免了这种逐对匹配，大大减少了计算的复杂度。每个点只需要找到对应的最近点，而不需要考虑所有可能的点对，这样可以大幅加速计算过程。

？？不过这样难道不会陷入局部最优吗？得去代码里仔细看看

Shape Metric（形状度量）

形状度量用来衡量物体形状的重建精度。为了评估物体的形状重建，作者使用了 F-score，这是一个结合了精度（Precision）和召回率（Recall）的指标，通常用于多视角重建任务。

精度（Precision）精度衡量的是重建的表面点与真实表面点之间的匹配质量。具体来说，它计算的是：

重建的点集中有多少百分比的点，在距离真实表面点 $\tau$（例如5毫米）以内。

召回率（Recall）召回率衡量的是真实物体表面点被重建点覆盖的程度。具体来说，它计算的是：

真实的物体表面点中有多少百分比的点，可以在重建的点集里找到，并且其距离小于 $\tau$。

F-score 是精度和召回率的调和平均值（harmonic mean），这可以综合考量重建的准确度和完整度，得出一个[0,1]的评分。 F-score 的值越接近 1，表示重建的物体表面越精确，重建的点与真实点之间的距离越小，且重建点尽可能多地覆盖了真实表面。

细节

物体的对齐：为了避免初始化阶段的误差，作者在实验中假设物体的初始位姿是已知的，并且它与真实位姿是对齐的。这意味着，尽管物体的初始位姿是在实验开始时设定的，物体的质心和主轴已经在某种程度上与地面真值对齐.初始化时，物体的坐标系是通过CAD模型的几何质心和主轴方向来设置的，确保物体坐标系与实际操作中的初始姿势匹配。为了保证后续重建的物体位姿不会从中受益，作者在手内物体旋转的5s后才开始做物体位姿和形状的测量，专注与后续的重建和跟踪。

由于细小误差的积累，且没有回环检测，那么随着时间的累积，物体的pose误差会不断累计，不过作者并没有这方面的改进，只是说明他们大部分的实验的形状估计并没有随着时间的延长而恶化。

目标

增量式地重建物体，在线地同时优化网络权重->更新SDF，物体位姿

有一个灵巧手在拿着物体旋转，这个旋转的策略应该是给定的

输入RGBD图像，四个手指的触觉传感器，以及机器人自身关节角旋转的参数

key insights

神经场（Neural Fields）是一种利用神经网络表示和建模3D空间中物体形状的方式。最常见的形式是有符号距离场（Signed Distance Fields，SDF），它通过神经网络来近似描述物体表面的位置。在这种表示中，每一个空间点都有一个标量值，表示到最近表面的距离。

神经场的优势在于，它提供了一种连续的、差分可计算的方式来描述复杂的三维几何形状，相比于离散的表示（例如点云或网格），神经场在内存占用和计算效率上更具优势，且可以进行精确的表面重建。

“姿态化”意味着神经场不仅表示物体的几何形状，还考虑了物体的位置和姿态（即其在三维空间中的方向和位置）。具体来说，NeuralFeels 中的神经场是通过优化物体的姿态（即物体在空间中的位置和朝向）和形状（即物体的几何特征）来动态更新和估计物体的模型。

在NeuralFeels中，物体模型（即神经场）是通过交替优化的方式来估计的：

形状优化：通过优化神经网络来更好地匹配物体的表面。

姿态优化：通过优化姿态图（Pose Graph）来调整物体的相对位置和朝向，确保物体的表面与其姿态保持一致

触觉相关

DIGIT视觉触觉传感器

输入为触觉图像，输出为像素级深度图。

前端

后端

需要讨论的问题

1 这个论文的代码里给的是原始的触觉输入图像，然后他们自己训了一个transformer来输出深度，如果用我们自己的传感器需要作哪些更改？

2 SDF没有颜色信息，用GSDF转高斯？或者还有没有别的方法？从本质上来说，我只是需要物体的形状作监督，只是physgaussian和GIC等代码用的是颜色来作为损失，既然已经有SDF场，有没有什么办法能把sdf离散为粒子？比如sdf->voxel->particle

补充材料

随便记录下

物体的mesh和pose真值的获取

获取真实物体的mesh

获取真实物体的pose

keyframe选取

两个指标，一个是时间间隔，另一个是将SDF渲染为深度图，与传感器深度图对比计算差异。若平均损失超过阈值 d_thresh？，说明当前SDF模型与观测数据差异较大（例如探测到物体新表面），从信息增益的角度出发？

触觉-深度图相比于二值有哪些优势？

D(R,O) Grasp

Thu, 19 Dec 2024 00:00:00 +0000

跨实体灵巧抓取的机器人与物体交互的统一表示

Mast3r-slam

Tue, 17 Dec 2024 00:00:00 +0000

Mast3r - SLAM

定义

dust3r/mast3r 输入$\mathcal{I}^i,\mathcal{I}^j\in\mathbb{R}^{H\times W\times3}$

得到$\mathbf{X}_i^i,\mathbf{X}_i^j\in\mathbb{R}^{H\times W\times3}$及对应的置信度 $\mathrm{C}_i^i,\mathrm{C}_i^j\in\mathbb{R}^{H\times W\times1}$

$\mathbf{X}_j^i$是图片i的点云在相机j下面的坐标

相比于dust3r,mast3r还输出了每个像素的特征向量$\mathrm{D}_i^i,\mathrm{D}_i^j\in\mathbb{R}^{H\times W\times d}$，及$\mathrm{Q}_i^i,\mathrm{Q}_i^j\in\mathbb{R}^{H\times W\times1}$。类似于特征子和描述子。

将mast3r的输出结果合并记为：$\mathcal{F}_M(\mathcal{I}^i,\mathcal{I}^j)$

一对图片的匹配集合表示为：$\mathbf{m}_{i,j}=\mathcal{M}(\mathbf{X}_i^i,\mathbf{X}_i^j,\mathbf{D}_i^i,\mathbf{D}_i^j)$

整体思路

1 前端优化：逐帧优化相机位姿，构建局部地图。

2 后端优化：全局优化所有关键帧和地图点，修正漂移和保证全局一致性。

前端优化

目标有两个：

1 在新帧和最近关键帧之间进行相机位姿的局部优化。

2 在局部范围内融合点地图（点云融合）。

点图匹配

数学推导如下（从几何角度上理解更为直观）：

为了进行局部的位姿优化，首先需要找到两张图之间的对应点：

projective data-association：

利用相机投影模型（例如针孔模型或其他中心投影模型，本文用的是射线），将 3D 点投影到图像平面上，并找到对应的像素位置。在投影到的像素周围局部搜索对应的观测点（例如通过颜色、特征等进行匹配）。通过这种投影与局部搜索，实现高效且准确的点匹配，而不需要全局特征匹配（如耗时的 brute-force 特征匹配）。

但是这个模型需要准确的相机参数->构建相机模型

def : 对于一幅图像中的点云，光线定义为从相机中心指向某个 3D 点的单位向量。作者采用的方式：基于迭代优化求解，最小化投影光线之间的角度误差优化的参数是： $\mathbf{T}= \begin{bmatrix} s\mathbf{R} & \mathbf{t} \\ 0 & 1 \end{bmatrix}$，及图片之间的像素的匹配关系

$$\mathbf{p}^*=\arg\min_\mathbf{p}\left\|\psi\left([\mathbf{X}_i^i]_\mathbf{p}\right)-\psi\left(\mathbf{x}\right)\right\|^2.$$$$\left\|\psi_1-\psi_2\right\|^2=2(1-\cos\theta),\quad\cos\theta=\psi_1^T\psi_2.$$

只有外参和尺度，没有估计内参，利用cuda并行加速

过滤点的方式：过滤三维空间中距离相差较大的点(文中没有提到具体的做法)

点图匹配的优化方法

目标：找到两张图片之间的对应点

初始化：恒等映射，即按像素坐标映射

优化的方程：

$$\mathbf{p}^*=\arg\min_\mathbf{p}\left\|\psi\left([\mathbf{X}_i^i]_\mathbf{p}\right)-\psi\left(\mathbf{x}\right)\right\|^2.$$

优化的变量：以第一张图片为参考系，逐像素优化第二张图片的对应点的像素坐标(u,v)，这个过程可以在GPU上并行运算(cuda)，并且文中提到只要10次迭代就可以收敛(速度比mast3r找对应点的方式更快吗?)

跟踪

估计当前帧(f)和最后一个关键帧(k)的相对位姿变换

什么叫使用网络的单次传递来估计变换？

损失函数: mast3r会估计出图片1的在图片2坐标系下的点云、图片2对应的点云在图片2坐标系下的点云（反过来也是一样的），这两个点云只相差了一个坐标变换矩阵（以及尺度？同一个pair下面也会有尺度不一致吗？）。这个损失函数应该只考虑了置信度较高的特征点对应的像素对应的点云。

$$E_p=\sum_{m,n\in\mathbf{m}_{f,k}}\left\|\frac{\tilde{\mathbf{X}}_{k,n}^k-\mathrm{T}_{kf}\mathrm{X}_{f,m}^f}{w(\mathrm{q}_{m,n},\sigma_p^2)}\right\|_\rho$$$$\mathrm{q}_{m,n}=\sqrt{\mathrm{Q}_{f,m}^f\mathrm{Q}_{f,n}^k}$$

q是描述子的内积; (这个$\sigma$没有定义？)

$$w(\mathbf{q},\sigma^2)= \begin{cases} \sigma^2/\mathbf{q} & \mathbf{q}>\mathbf{q}_{min} \\ \infty & \mathrm{otherwise} & & \end{cases}.$$

如何解决3D点深度不一致的问题->光线误差（而不是重投影）+点云融合

利用射线的角度误差而非投影误差（这个误差对深度不敏感）

$$E_r=\sum_{m,n\in\mathbf{m}_{f,k}}\left\|\frac{\psi\left(\tilde{\mathbf{X}}_{k,n}^k\right)-\psi\left(\mathbf{T}_{kf}\mathbf{X}_{f,m}^f\right)}{w(\mathbf{q}_{m,n},\sigma_r^2)}\right\|_\rho.$$

角度误差是有界的，基于射线的误差对异常值具有鲁棒性。因为：1.相比直接使用 3D 点误差，射线误差（角度误差）更鲁棒，因为它只考虑方向，而不依赖于深度的绝对精度。避免尺度问题：2.由于单目 SLAM 中的尺度不确定性，使用射线误差能够更好地处理尺度问题。

我们还包括一个关于距离相机中心的距离差的小权重的误差项。这防止了系统在纯旋转情况下退化，但较小的权重避免了像点位误差那样对位姿估计产生偏差。？？？

点云融合

点云融合的方式，加权平均

$$\tilde{\mathbf{X}}_{k}^{k}\leftarrow\frac{\tilde{\mathbb{C}}_{k}^{k}\tilde{\mathbb{X}}_{k}^{k}+\mathbb{C}_{f}^{k}\left(\mathbb{T}_{kf}\mathbb{X}_{f}^{k}\right)}{\tilde{\mathbb{C}}_{k}^{k}+\mathbb{C}_{f}^{k}},\tilde{\mathbb{C}}_{k}^{k}\leftarrow\tilde{\mathbb{C}}_{k}^{k}+\mathbb{C}_{f}^{k}.$$

置信度直接相加吗？->某一个点的置信度会越来越高

后端优化

图的构建以及回环检测

怎么判断一个图片是否是关键帧？

通过mast3r构建一个pair，同时输入最后一个关键帧和当前的图片，计算匹配的像素点的数量，如果这个数量低于某一个值，那就说明这个新加入的图片能够产生足够多的新的点云，因此就把这张图作为关键帧。

graph的顺序是什么？

按照时间顺序串联，同时维护一个边的集合，每次加入两个关键帧之间的边（双向）

局部的回环检测和全局的回环检测

采用MASt3R-SfM使用的聚合选择性匹配内核 (ASMK)框架(?)，用于从编码特征进行图像检索。这样就能找到两张类似的图片来进行回环检测。（但是文章中没有提到增量式建立ASMK框架的过程以及检测到回环之后调整全局位姿的方法？）

后端优化

后端优化的方法，对于边的集合中所有的图片一起进行优化

$$E_g=\sum_{i,j\in\mathcal{E}}\sum_{m,n\in\mathbf{m}_{i,j}}\left\|\frac{\psi\left(\tilde{\mathbf{X}}_{i,m}^i\right)-\psi\left(\mathbf{T}_{ij}\tilde{\mathbf{X}}_{j,n}^j\right)}{w(\mathbf{q}_{m,n},\sigma_r^2)}\right\|_\rho$$

假设集合中有N个关键帧，那么形成了2N个边（双向边，形成了回环），每个关键帧有7个自由度（3 个旋转、3 个平移和 1 个尺度）

SLAM on Xiong Jia

NeuralFeels

信息概览

工作流

度量指标

Pose Metric（位姿度量）

Shape Metric（形状度量）

细节

目标

key insights

触觉相关

前端

后端

需要讨论的问题

补充材料

物体的mesh和pose真值的获取

keyframe选取

触觉-深度图相比于二值有哪些优势？

D(R,O) Grasp

跨实体灵巧抓取的机器人与物体交互的统一表示

Mast3r-slam

Mast3r - SLAM

定义

整体思路

前端优化

点图匹配

点图匹配的优化方法

跟踪

点云融合

后端优化

图的构建以及回环检测

后端优化

数学公式推导