论文信息

CVPR 2024 Best Paper

论文题目： Generative Image Dynamics

是否开源： 否

总结：

一种从静态图像生成动态运动的方法，特别是针对自然的振荡运动，如树木在风中摇动、花朵或蜡烛火焰的摆动等。核心思想是使用频谱体积，这是一种基于频率的像素运动表示，通过真实视频序列进行学习。

细节

输入单张图片$I_0$, 输出${\hat{I}_1, \hat{I}_2, ..., \hat{I}_T}$，

用LDM从输入的单张图片中预测谱体积 $\mathcal{S}=\left(S_{f_0},S_{f_1},...,S_{f_{K-1}}\right)$ ，然后再利用这个谱体积恢复$\mathcal{F}=(F_1,F_2,...,F_T)$，即后面T个时刻的运动。$F_t(p)$ 代表t时刻$I_0$中第p个像素的位置。（$I_t^\prime(\mathbf{p}+F_t(\mathbf{p}))=I_0(\mathbf{p})$）

spectral volume（谱体积）： 从视频中提取的每像素轨迹的时间傅里叶变换。

频谱分析->解决生成视频的长期时间一致性??

k个频率，(x,y)+- 共4K个channel

对于一张 $H \times W$的图片，每个像素p可以表示为$I_{t}(p) = \Sigma_{k} [Asin(k \omega x t) + B cos(k \omega x t)]$

值得阅读的参考论文

Myers Abraham Davis. Visual vibration analysis. PhD thesis, Massachusetts Institute of Technology, 2016.