Galileo

Mon, 10 Mar 2025 15:32:44 +0800

论文信息

信息概览

NeurIPS 2015

论文题目： Galileo: Perceiving Physical Object Properties by Integrating a Physics Engine with Deep Learning

论文单位： MIT

是否开源： 否

总结： 斜坡实验，视觉输入推断物体在动态场景中的物理属性（摩擦力+动量守恒）

论文细节

小记

估计物体的质量、位置、3D 形状和摩擦力

mapping visual inputs to physical properties

看到物体从坡道上滑下、相互碰撞、滚动、进入其他物体、坠落 — 不同质量、材料和其他物理特性的物体之间的多种物理相互作用

人类利用逼真的物理引擎作为生成模型的一部分来解释现实世界的物理场景

这个模型有三个部分，

第一个部分是生成对象的物理表示（刚体表示：形状+质量+摩擦力[没有速度吗？]），根据视觉输入进行近似或估计。

第二个部分是在Bullet的基础上，这个引擎输入上述的物理表示然后执行前向的物理模拟，算出模拟得到的速度和位置曲线。

第三部分是似然函数？用场景中的速度矢量来评估真实世界的视频？？

Now, given a video as observation to the model, physical scene understanding in the model corresponds to inverting the generative model by probabilistic inference to recover the underlying physical object properties in the scene.

none of them focused on learning physical properties directly, and nor they have incorporated a physics engine with representation learning.

一个物体从倾斜的表面上滑下来，并可能与地面上的另一个物体发生碰撞。

将物理引擎的反馈合并到循环中，从视觉输入中估计物体的物理属性。

首先，我们提出了 Galileo，这是一种新颖的模型，通过将物理引擎的反馈合并到循环中，从视觉输入中估计物体的物理属性。我们证明，它在真实世界的视频数据集上取得了令人鼓舞的性能。其次，我们训练一个基于深度学习的识别模型，该模型可以在生成模型中进行高效推理，并使生成模型能够预测静态场景的未来动态演变（例如，该场景如何及时展开）。第三，我们测试我们的模型，并将其与人类在各种物理判断任务上进行比较。我们的结果表明，人类在这些任务中非常成功，我们的模型在性能上与人类非常匹配，但也始终犯与人类类似的错误，这为支持人类物理场景理解的概率模拟解释提供了进一步的证据。

训练的网络是LeNet 输入裁剪好的图像块，输出物体的label（属性）

NeurIPS on Xiong Jia

Galileo

论文信息

信息概览

论文细节

小记