Jiajun Wu on Xiong Jia

Galileo

Mon, 10 Mar 2025 15:32:44 +0800

论文信息

信息概览

NeurIPS 2015

论文题目： Galileo: Perceiving Physical Object Properties by Integrating a Physics Engine with Deep Learning

论文单位： MIT

是否开源： 否

总结： 斜坡实验，视觉输入推断物体在动态场景中的物理属性（摩擦力+动量守恒）

论文细节

小记

估计物体的质量、位置、3D 形状和摩擦力

mapping visual inputs to physical properties

看到物体从坡道上滑下、相互碰撞、滚动、进入其他物体、坠落 — 不同质量、材料和其他物理特性的物体之间的多种物理相互作用

人类利用逼真的物理引擎作为生成模型的一部分来解释现实世界的物理场景

这个模型有三个部分，

第一个部分是生成对象的物理表示（刚体表示：形状+质量+摩擦力[没有速度吗？]），根据视觉输入进行近似或估计。

第二个部分是在Bullet的基础上，这个引擎输入上述的物理表示然后执行前向的物理模拟，算出模拟得到的速度和位置曲线。

第三部分是似然函数？用场景中的速度矢量来评估真实世界的视频？？

Now, given a video as observation to the model, physical scene understanding in the model corresponds to inverting the generative model by probabilistic inference to recover the underlying physical object properties in the scene.

none of them focused on learning physical properties directly, and nor they have incorporated a physics engine with representation learning.

一个物体从倾斜的表面上滑下来，并可能与地面上的另一个物体发生碰撞。

将物理引擎的反馈合并到循环中，从视觉输入中估计物体的物理属性。

首先，我们提出了 Galileo，这是一种新颖的模型，通过将物理引擎的反馈合并到循环中，从视觉输入中估计物体的物理属性。我们证明，它在真实世界的视频数据集上取得了令人鼓舞的性能。其次，我们训练一个基于深度学习的识别模型，该模型可以在生成模型中进行高效推理，并使生成模型能够预测静态场景的未来动态演变（例如，该场景如何及时展开）。第三，我们测试我们的模型，并将其与人类在各种物理判断任务上进行比较。我们的结果表明，人类在这些任务中非常成功，我们的模型在性能上与人类非常匹配，但也始终犯与人类类似的错误，这为支持人类物理场景理解的概率模拟解释提供了进一步的证据。

训练的网络是LeNet 输入裁剪好的图像块，输出物体的label（属性）

SFA

Sat, 08 Mar 2025 14:43:57 +0800

论文信息

信息概览

Science Robotic 2019

论文题目： See, feel, act: Hierarchical learning for complex manipulation skills with multisensory fusion

论文单位： MIT

是否开源： 否

总结：

文章要解决的一个核心问题是机器人如何像人类一样，结合视觉和触觉信息，高效学习复杂的物理操作技能，比如玩 Jenga（叠叠乐）？

论文细节

分析：这个问题可以从两个角度来解读：1 机器人需要边操作边感知，用触觉和视觉来推测积木状态，而不是仅靠视觉；2 机器人需要同时处理可移动和不可移动的积木，制定合适的策略来提取积木，而不让塔倒塌。传统机器人学习主要依赖视觉数据，缺乏触觉推理能力，导致它们需要大量数据才能学会基本操作。而基于强化学习方法需要大量训练数据，但由于Jenga游戏中的物理交互细节微妙，RL难以快速收敛。因此，文中给出的方法可以按照探索（Exploration）+ 学习（Learning）+ 决策（Decision Making）的框架来解决。

探索

机器人随机选择一个积木并执行推的动作，并记录：积木的受力情况（触觉传感器），积木移动的位置和角度（摄像头），机器人末端执行器的参数（本体感知），塔的稳定性（由视觉观测），类似于人类玩Jenga时会试探性地推一下积木，看看它是否松动

训练

论文提出了一种分层学习（hierarchical learning）方法；

低层级：学习物理参数（如积木的受力情况、摩擦力、位移）

高层级：归纳行为模式（如“积木可以移动” vs “积木被卡住”）

绿色集群表示机器人未与任何块接触的轨迹，特别是在轨迹开始时，测得的力可以忽略不计，并且块不会移动。灰色簇表示抵抗运动并被卡住的块，表现出较大的阻力并且几乎没有平移。蓝色簇表示相当容易移动的块（大位移）并且表现出可以忽略不计的阻力。黄色集群表示移动但对机器人提供有意义阻力的块。

计算：积木是否容易被推动（基于力反馈）/积木是否松动（基于历史数据）/积木移动时的可能路径（基于视觉+力传感器）

论文使用了贝叶斯神经网络（BNN, Bayesian Neural Network）学习积木的力学行为模式，使机器人可以从少量数据中泛化：输入：推积木时的力+位移信息。输出：预测未来的受力情况和积木的运动轨迹。

泛化

机器人在每次推积木时，会先计算成功的概率。例如，如果积木之前被推过但没有动，机器人会降低推的力度或改变推的方向。

然后执行贝叶斯更新（Bayesian Update）：机器人会随着每次操作更新对积木状态的信心。

例如：机器人发现某个积木很难移动 → 更新其状态为“卡住”，减少未来的尝试。发现某个积木容易移动 → 优先尝试此类积木。

更多训练的细节： 1 采用贝叶斯建模学习积木的物理属性； 2 用深度学习训练一个预测模型（输入力，预测积木的反应）； 3 机器人自监督学习，不断改进对积木状态的推测；

思考

这个训练的框架也许有用，但应该仅限于摩擦力的框架，而且我对BNN并不太了解；

估计摩擦力的框架到时可以借鉴？即输入物体的rgb图+末端执行器的位姿+施加力的大小和方向，然后先算一步先验(即初步估计的摩擦系数，就能简单的判断这个力是否能推动物体)再输入神经网络，得到物体下一时刻的位移。

其他

论文提出了一种分层学习（hierarchical learning）方法，通过视觉和触觉融合，使机器人学习Jenga游戏中的操作技能

论文想要解决的问题是主动感知与混合行为。

首先是如何通过视觉信息和触觉信息来感知世界；然后是如何通过多模态信息来学习操作；

基于RL构建的大部分方法都无法有效地利用利用有关对象和动作的物理知识，而且这些系统需要比人类多得多的训练数据来学习新模型或新任务，而且它们的泛化范围要小得多，鲁棒性也要差得多。

给机器人的任务是玩Jenga这个游戏。

对于这个任务，人类通过触摸积木并结合触觉和视觉感官来推断它们的交互来获取信息

基于此，机器人通过视觉信息来学习有关塔的位置和当前区块排列的信息。

以抽取的木条的数量作为评价指标；

机器人知道每一个时间步下的机械手的位姿，物体的姿势和施加到物体上的力

很多仿真系统中对于摩擦力的建模是很粗糙的，因此仿真到现实的gap是难以弥合的。

触觉信息是间断的，很难与视觉信息对齐。在Jenga任务中，视觉信息和触觉信息互相补充。

触觉反馈可以提供高分辨率的局部信息，以补充来自视觉的全局但粗略的信息。

DANOs

Mon, 03 Mar 2025 10:04:23 +0800

论文信息

信息概览

RAL 2023

论文题目： Differentiable Physics Simulation of Dynamics-Augmented Neural Objects

论文单位： MIT

是否开源： 否

总结： 输入未经处理的rgb视频，使用可微分物理引擎来模拟其在施加的力和扭矩下的运动

论文细节

1 估计物体质量、质心、惯性矩阵和表面摩擦系数，通过表面接触的概率?

总体思想如下：

他们主要的创新点还是在提取物体表面上做的，但该方法是建立在nerf场上的，没必要借鉴，在3DGS的情况下应该有更好的表示方式。总之，这个工作主要还是建立在dojo这个他们MIT自己研究的仿真平台上的，不一定有泛用性，而且这个平台已经停止开发了。可以去研究下genesis是怎么工作的。

Physdreamer

Tue, 25 Feb 2025 00:00:00 +0000

论文信息

信息概览

ECCV 2024 Oral Presentation

论文题目： PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation

论文单位： MIT

是否开源： 是

总结： 一种基于物理学的方法，通过利用视频生成模型学习的对象动力学先验，赋予静态3D对象交互式动力学，也就是使静态3D对象能够以物理上似乎合理的方式动态响应交互刺激。

该方法使用3D高斯粒子表示物体，使用神经场建模材料属性，并通过可微分仿真（使用材料点法，MPM）模拟动态。

论文思路

问题：给一张图片，比如一朵花，想知道这朵花在微风吹过后的动态信息，也就是求一个物体对于新物理交互的响应。

但是求解这个响应，需要对物体的性质有较为准确的估计（比如两种弹性系数不同的弹簧，对其施加相同大小和方向的力，其变形显然是不一样的）。

而这个性质是很难测量的，或者说难以形成大规模的数据集以供学习。

但是人类能从观察物理世界和与物理世界互动中获得的物理先验知识，受此启发，作者从大量的视频先验中学习动力学先验，

为了简化，这篇文章只对弹性物体做了仿真，那么估计的物理属性，有质量、杨氏模量和泊松比。质量等于密度乘体积，论文中粒子的体积是体素的体积除以其中包含的粒子数，密度是给定的常数，泊松比也是给定的常数，所以最后优化的只是一个杨氏模量的场。

论文的关键思想是生成运动中物体的合理demo，比如一朵花，他把花离散为很多稠密的点，但这些点不是同构的，因此每个点的杨氏模量都不一样，然后按照物理属性去优化材质场E以匹配这个合成的运动。我们首先从某个视点为 3D 场景出发渲染静态图像。然后，我们利用图像到视频模型(SVD)生成一个短视频剪辑 {$I_0$， $I_1$， . . . ， $I_T$ }，描绘对象的真实运动，这个生成的模型是GT来监督模拟得到的图像，然后再通过可微分模拟和可微渲染来优化材料场E(x)和初始速度场$v_0$(x)，使得模拟的渲染视频与生成的视频匹配。但其实我觉得核心的部分还是图中下面的箭头，也就是PhysGaussian的工作比较重要。

细节部分

仿照PhysGaussian内部填充？

核心的仿真原理：

$$ \rho \frac{D v}{D t} = \nabla \cdot \sigma + f, \frac{D \rho}{D t} + \rho \nabla \cdot v = 0 $$

v 是欧拉视角，密度是常量，f是外力。

MPM的实现细节需要单独花时间细看。

总体可以概括如下：

$$ x^{t+1}, v^{t+1}, F^{t+1}, C^{t+1} = S(x^{t}, v^{t}, F^{t}, C^{t}, \theta , \Delta t) $$

F和C分别是局部变形场的梯度和应力场的梯度，$\theta$ 代表所有的物理量，在文章里代表E，$\Delta \approx 1 \times 10^{-4}$，仿真了100步。

对于每一步，按如下公式渲染：

$$ \hat{I}^t = F_{render}(x^t, \alpha, R^t, \Sigma, c) $$

R代表所有粒子的旋转矩阵，

优化的参数是杨氏模量和初始帧的速度，损失函数定义如下：

$$ L^t = \lambda L_1(\hat{I}^t, I^t) + (1-\lambda)L_{D-SSIM}(\hat{I}^t, I^t) $$

创新点(MPM加速)

高斯模型包含成千上万个点，这对于模拟来说效率较低。因此，本文采用了下采样方法，每个下采样后的点能够有效描述其对应领域的信息。此外，下采样对3D几何形状（3DGS）的表征同样至关重要。因为3DGS表征存在过于局部化的问题（不同区域之间的表征可能会出现突变或不连贯），这会导致空间表征的不连续性。通过下采样后，每个点包含了其领域的信息，从而有可能推动表征向混合高斯模型（mixture-Gaussian）方向发展，使得空间的整体表示更加连续。这样的方法可能为将三维场景表示为一串序列提供了思路，可以进一步应用于MLLM。例如，可以将该序列视作一个Encoder-Decoder模型，并通过重建信息作为监督信号进行训练。

结果

数据集：八个真实场景，大部分是花，这个作为对照组

其实没什么意义，因为本身这篇论文是在前两篇的基础上做的，而且PhysGaussian没有优化物理参数，DreamGaussian没有物理假设。。

讨论

视频生成的方式

用SVD采样得到了14帧的信息作为监督。

疑问的点，text-prompt怎么设计，比如花在空中摇摆，或者被人碰了一下，怎么去量化这个幅度？

loss的设计

用生成得到的视频监督是否合理？因为整个3DGS的参数很多，这篇文章只是监督了E，而其他的位置，速度等信息都是仿真算出来的，所以DoF，或者说优化的参数空间其实比较小。但是如果要学习更多的物理信息，只用SVD去监督肯定不合理。

其次，生成得到的视频离真实场景还是有差别，所以还是要做一个trade-off，一种方法是减少生成视频对模型的影响，例如使用结构损失作为损失函数，或者将生成的视频帧作为guidance来进行distillation，另一种是降低估计的Dof，想这篇文章做的那样，固定泊松比和质量，只估计杨氏模量，第三种方式是提高视频生成的能力，脱离SDS损失函数的监督，转向全监督学习，即让生成的视频与真实场景之间有更多直接的监督。

Jiajun Wu on Xiong Jia

Galileo

论文信息

信息概览

论文细节

小记

SFA

论文信息

信息概览

论文细节

探索

训练

泛化

思考

其他

DANOs

论文信息

信息概览

论文细节

相关论文

Physdreamer

论文信息

信息概览

论文思路

细节部分

创新点(MPM加速)

结果

讨论

视频生成的方式

loss的设计