<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Yuexin Ma on Xiong Jia</title>
        <link>https://Peraspera1.github.io/tags/yuexin-ma/</link>
        <description>Recent content in Yuexin Ma on Xiong Jia</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <copyright>xj</copyright>
        <lastBuildDate>Fri, 25 Apr 2025 16:03:07 +0800</lastBuildDate><atom:link href="https://Peraspera1.github.io/tags/yuexin-ma/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>EvolvingGrasp</title>
        <link>https://Peraspera1.github.io/p/evolvinggrasp/</link>
        <pubDate>Fri, 25 Apr 2025 16:03:07 +0800</pubDate>
        
        <guid>https://Peraspera1.github.io/p/evolvinggrasp/</guid>
        <description>&lt;img src="https://Peraspera1.github.io/images/EvolvingGrasp/cover.png" alt="Featured image of post EvolvingGrasp" /&gt;&lt;p&gt;由于在低多样性数据上训练的模型存在局限性，灵巧的机械手通常难以在复杂环境中有效地泛化。然而，现实世界本质上呈现了无限的场景范围，因此无法考虑所有可能的变化.&lt;/p&gt;
&lt;p&gt;**​​现有方法的局限​​：**传统灵巧抓取方法（优化型或基于学习的方法）依赖有限多样性的数据集，难以适应真实场景中无限的变化。扩散模型虽能生成多样抓取，但存在采样效率低、物理合理性不足的问题&lt;/p&gt;
&lt;p&gt;一个自然的解决方案是让机器人从复杂环境中的经验中学习，这种方法类似于进化，系统通过持续反馈进行改进，从失败和成功中学习，并迭代以实现最佳性能。
也就是在动态环境中实现抓取策略的持续优化，同时平衡效率与物理可行性。&lt;/p&gt;
&lt;h2 id=&#34;问题定义&#34;&gt;问题定义
&lt;/h2&gt;&lt;p&gt;输入​​：物体点云 $O\in\mathbb{R}^{N\times3}$ ，表示物体的几何形状。&lt;/p&gt;
&lt;p&gt;输出：灵巧手的抓取姿态参数 x&lt;/p&gt;
&lt;h2 id=&#34;方法&#34;&gt;方法
&lt;/h2&gt;&lt;p&gt;对于一个物体点云O，模型会通过预测噪声，然后去噪得到多个手部姿态的样本。这个样本里有正样本和负样本（判断正负样本的方式是在仿真加扰动，有一些metrics去判断，也可以由人来选择）。然后根据HPO的损失函数来调整模型参数（如LoRA微调），使未来生成的姿态更偏向成功分布，而非直接修改去噪步骤的参数。&lt;/p&gt;
&lt;h2 id=&#34;hpo&#34;&gt;HPO
&lt;/h2&gt;&lt;p&gt;​Handpose-wise Preference Optimization (HPO) 基于偏好对齐的进化式抓取生成&lt;/p&gt;
&lt;p&gt;​​目标​​：通过对比正样本（成功抓取）和负样本（失败抓取）的差异，优化模型生成抓取姿态的后验概率分布。&lt;/p&gt;
&lt;p&gt;使用Bradley-Terry模型定义偏好概率：
$p_\mathrm{BT}(x_0^w\succ x_0^l)=\sigma(r(x_0^w)-r(x_0^l))$&lt;/p&gt;
&lt;p&gt;HPO损失函数:&lt;/p&gt;
&lt;p&gt;$\mathcal{L}_{\mathrm{HPO}}=\mathbb{E}\log\sigma\left(\sum_{i=1}^{N_{\mathrm{suc}}}\log\frac{\pi_\theta(x_{n-1}^i|x_n^i)}{\pi_{\mathrm{ref}}(x_{n-1}^i|x_n^i)}-\sum_{j=1}^{N_{\mathrm{fail}}}\log\frac{\pi_\theta(x_{n-1}^j|x_n^j)}{\pi_{\mathrm{ref}}(x_{n-1}^j|x_n^j)}\right)$&lt;/p&gt;
&lt;p&gt;通过正样本（成功抓取）和负样本（失败抓取）的对数概率比优化策略，使模型偏好高质量抓取。&lt;/p&gt;
&lt;h3 id=&#34;bradley-terry模型&#34;&gt;​​Bradley-Terry模型
&lt;/h3&gt;&lt;p&gt;Bradley-Terry模型是一种用于​​配对比较（Pairwise Comparison）​​的概率模型，最初用于预测竞技比赛中选手的胜负概率。&lt;/p&gt;
&lt;p&gt;每个选项（如选手或抓取姿态）有一个隐式“强度值”​​（即奖励函数值 r(x)）。&lt;/p&gt;
&lt;p&gt;Example: 选手A的强度值 r(A)=2，选手B的强度值 r(B)=1  根据Bradley-Terry模型，A战胜B的概率为 $\frac{e^2}{e^2+e^1}\approx73\%$&lt;/p&gt;
&lt;p&gt;在论文中，抓取姿态的“强度值”由隐式奖励函数 r(x) 表示（显式的奖励函数，如“接触点数越多越好”），代表抓取姿态的质量（如稳定性、防穿透性），那么偏好概率公式由以下方程表示：&lt;/p&gt;
&lt;p&gt;$p_{\mathrm{BT}}(x^w\succ x^l)=\sigma(r(x^w)-r(x^l))=\frac{1}{1+e^{-(r(x^w)-r(x^l))}}$&lt;/p&gt;
&lt;p&gt;$x^w$是成功样本，$x^l$是失败样本，如果 $x^w$ 比 $x^l$更优,则 $r(x^w)&gt;r(x^l)$ ,概率趋近于1;反之趋近于0。&lt;/p&gt;
&lt;h2 id=&#34;pcm&#34;&gt;PCM
&lt;/h2&gt;&lt;p&gt;PCM的核心，一是通过一致性模型框架压缩推理步骤，而是引入物理约束。&lt;/p&gt;
&lt;h3 id=&#34;一致性模型&#34;&gt;一致性模型
&lt;/h3&gt;&lt;p&gt;从预训练的扩散模型（教师模型）中蒸馏出一个轻量级的一致性模型（学生模型），从而将扩散模型的去噪过程（数百步）压缩为​​极少数步骤​​（2-8步），直接学习从噪声到干净数据的映射&lt;/p&gt;
&lt;h4 id=&#34;自洽性&#34;&gt;自洽性
&lt;/h4&gt;&lt;p&gt;模型在不同时间步（timestep）对同一噪声输入的预测结果指向同一数据点​​（即去噪后的干净数据）。例如，输入一个噪声样本$x_t$, (对应时间步 t)，模型应直接预测出最终去噪结果$x_0$。输入另一个噪声样本$x_{t&#39;}$，对应时间步$t&#39;$，模型预测的$x_0$应与前者的结果一致。&lt;/p&gt;
&lt;p&gt;那么自洽性损失的定义如下：&lt;/p&gt;
&lt;p&gt;$\mathcal{L}_{\text{consistency}}=\mathbb{E}_{t,t^{\prime}}\left[\|f_\theta(x_t,t)-f_\theta(x_{t^{\prime}},t^{\prime})\|^2\right]$&lt;/p&gt;
&lt;p&gt;在训练时，随机采样两个时间步 t 和 t&amp;rsquo;，并通过数值 ODE 求解器（如 DDIM）生成相邻时间步的噪声样本$x_t$和$x_{t&#39;}$。
模型需预测两者的去噪结果$x_0$，并通过损失函数强制它们的预测一致。&lt;/p&gt;
&lt;h4 id=&#34;模型蒸馏&#34;&gt;模型蒸馏
&lt;/h4&gt;&lt;p&gt;教师模型​​：传统扩散模型需要 100+ 步去噪（如 DDPM），每一步迭代修正噪声。&lt;/p&gt;
&lt;p&gt;​​学生模型（PCM）​​：通过​​蒸馏（Distillation）​​将教师模型的多步去噪过程压缩为​​单步映射​​（从任意噪声$x_t$直接预测$x_0$）。&lt;/p&gt;
&lt;p&gt;教师模型使用大规模抓取数据集（如 DexGraspNet、MultiDex）训练传统的扩散模型。&lt;/p&gt;
&lt;p&gt;学生模型在推理时需满足物理可行性（如避免穿透、保持接触稳定性）。为此，在采样过程中引入​​梯度引导​​：&lt;/p&gt;
&lt;p&gt;$\hat{\mu}_\theta(x_t,t)=\mu_\theta(x_t,t)+\sum_{i=1}^m\gamma_i\nabla_{x_t}\mathcal{L}_{\mathrm{PA}_i}(F_\theta(x_t,t),\epsilon_\theta)$&lt;/p&gt;
&lt;p&gt;学生模型本身是单步映射，但实际应用中通过 2-8 步迭代逐步修正噪声，以提升稳定性。&lt;/p&gt;
&lt;h2 id=&#34;评估指标&#34;&gt;评估指标
&lt;/h2&gt;&lt;h3 id=&#34;suc6&#34;&gt;Suc.6
&lt;/h3&gt;&lt;p&gt;Success rate Suc.6 measures the proportion of grasping poses where the object’s displacement does not exceed 2 cm in all six axial directions (±X, ±Y , ±Z), evaluating multi-directional stability.&lt;/p&gt;
&lt;p&gt;在仿真器中给物体一个扰动，看物体在六个方向上的移动会不会超过2cm。需要六个方向都小于2cm才算成功。&lt;/p&gt;
&lt;h3 id=&#34;suc1&#34;&gt;Suc.1
&lt;/h3&gt;&lt;p&gt;Suc.1 measures the proportion where displacement does not exceed 2cm in at least one direction, assessing single-direction stability.&lt;/p&gt;
&lt;p&gt;在仿真器中给物体一个扰动，看物体在单个方向上的移动会不会超过2cm。&lt;/p&gt;
&lt;h3 id=&#34;pen&#34;&gt;Pen.
&lt;/h3&gt;&lt;p&gt;Pen. indicates the maximum penetration depth (mm) between the hand and the object, with lower values suggesting more physically plausible grasps.&lt;/p&gt;
&lt;p&gt;手与物体之间的最大穿透深度 （mm），值越低表示物理上越合理。&lt;/p&gt;
&lt;p&gt;结果如下（论文中的metrics似乎单位错了？）：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://Peraspera1.github.io/images/EvolvingGrasp/metrics.png&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;metrics&#34;
	
	
&gt;&lt;/p&gt;
&lt;h2 id=&#34;手部姿态参数表示&#34;&gt;手部姿态参数表示​
&lt;/h2&gt;&lt;p&gt;抓取姿态 x 由三部分组成：
$x=\left\{\theta_h\in\mathbb{R}^{24},T_{\mathrm{global}}\in\mathbb{R}^3,R_{\mathrm{global}}\in SO(3)\right\}$&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;​关节角度&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;​​参数​​： $x=  \theta_h\in \mathbb{R}^{24}$&lt;/p&gt;
&lt;p&gt;​​含义​​：控制手部24个关节的弯曲角度（如手指的屈伸、侧展）。&lt;/p&gt;
&lt;p&gt;​​作用​​：决定手指的局部形状，例如手指如何包裹物体。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;​​全局平移&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;​​参数​​： $T_{\mathrm{global}}\in\mathbb{R}^3$&lt;/p&gt;
&lt;p&gt;​​含义​​：手部基坐标系（如掌心）在三维空间中的平移坐标 (x,y,z)。&lt;/p&gt;
&lt;p&gt;​​作用​​：确定手部相对于目标物体的位置（如手距离物体的远近）。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;​​全局旋转&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;​​参数​​：$ R_{\mathrm{global}}\in SO(3)$&lt;/p&gt;
&lt;p&gt;​​含义​​：手部基坐标系的三维旋转矩阵（属于特殊正交群 SO(3)），表示手部的朝向（如掌心朝上/朝下）。&lt;/p&gt;
&lt;p&gt;​​作用​​：决定手部在空间中的摆放方向，影响抓取角度（如正握、侧握）&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
