Report0312

Nvidia在今年一月份发布的工作Cosmos是目前较为先进的视频生成模型,而且文中还专门提到了他们有很多操作相关的数据。 论文 我尝试了下这个模型,工作流如下: 工作流

生成1280*704的视频,长度为5秒,部分结果如下:

可以看出,当前模型的效果并不理想。在光影变化和广角视觉效果方面,它已经做得相当不错,能够呈现出较好的视觉效果。然而,在物理场模拟上仍存在明显不足,尤其是在处理流体、爆炸等高度非线性或具有剧烈突变的场景时,表现尤为欠缺。

第二篇工作是Physdreamer,是在PhysGaussian的基础上做的。

PhysGaussian是第一篇将3D高斯核(用于渲染)与物理属性(如速度、应变、应力)相结合,使其能够模拟牛顿力学中的动态行为,适用于多种不同材料(如弹性物体、金属、非牛顿流体等),但是这篇工作需要手动地设置物理系数,而且输入的是3DGS输出的高斯表示(论文中是用手机拍照,接入colmap恢复点云,再接入3DGS)

论文的关键思想是生成运动中物体的合理demo,比如一朵花,他把花离散为很多稠密的点,但这些点不是同构的,因此每个点的杨氏模量都不一样,然后按照物理属性去优化材质场E以匹配这个合成的运动。 我们首先从某个视点为 3D 场景出发渲染静态图像。然后,我们利用图像到视频模型(SVD)生成一个短视频剪辑 {$I_0$, $I_1$, . . . , $I_T$ },描绘对象的真实运动,这个生成的模型是GT来监督模拟得到的图像,然后再通过可微分模拟和可微渲染来优化材料场E(x)和初始速度场$v_0$(x),使得模拟的渲染视频与生成的视频匹配。 但其实我觉得核心的部分还是图中下面的箭头,也就是PhysGaussian的工作比较重要。

论文整体框架

Licensed under CC BY-NC-SA 4.0
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计
发表了30篇文章 · 总计0.02k字