论文信息
CVPR 2024 Best Paper
论文题目: Generative Image Dynamics
是否开源: 否
总结:
一种从静态图像生成动态运动的方法,特别是针对自然的振荡运动,如树木在风中摇动、花朵或蜡烛火焰的摆动等。 核心思想是使用频谱体积,这是一种基于频率的像素运动表示,通过真实视频序列进行学习。
细节
输入单张图片$I_0$, 输出${\hat{I}_1, \hat{I}_2, ..., \hat{I}_T}$,
用LDM从输入的单张图片中预测谱体积 $\mathcal{S}=\left(S_{f_0},S_{f_1},...,S_{f_{K-1}}\right)$ ,然后再利用这个谱体积恢复$\mathcal{F}=(F_1,F_2,...,F_T)$,即后面T个时刻的运动。$F_t(p)$ 代表t时刻$I_0$中第p个像素的位置。($I_t^\prime(\mathbf{p}+F_t(\mathbf{p}))=I_0(\mathbf{p})$)
spectral volume(谱体积): 从视频中提取的每像素轨迹的时间傅里叶变换。
频谱分析->解决生成视频的长期时间一致性??
k个频率,(x,y)+- 共4K个channel
对于一张 $H \times W$的图片,每个像素p可以表示为$I_{t}(p) = \Sigma_{k} [Asin(k \omega x t) + B cos(k \omega x t)]$
值得阅读的参考论文
Myers Abraham Davis. Visual vibration analysis. PhD thesis, Massachusetts Institute of Technology, 2016.