Featured image of post Generative Image Dynamics

Generative Image Dynamics

论文阅读笔记 生成扩散模型 交互动力学

论文信息

CVPR 2024 Best Paper

论文题目: Generative Image Dynamics

是否开源:

总结:

一种从静态图像生成动态运动的方法,特别是针对自然的振荡运动,如树木在风中摇动、花朵或蜡烛火焰的摆动等。 核心思想是使用频谱体积,这是一种基于频率的像素运动表示,通过真实视频序列进行学习。

细节

输入单张图片$I_0$, 输出${\hat{I}_1, \hat{I}_2, ..., \hat{I}_T}$,

用LDM从输入的单张图片中预测谱体积 $\mathcal{S}=\left(S_{f_0},S_{f_1},...,S_{f_{K-1}}\right)$ ,然后再利用这个谱体积恢复$\mathcal{F}=(F_1,F_2,...,F_T)$,即后面T个时刻的运动。$F_t(p)$ 代表t时刻$I_0$中第p个像素的位置。($I_t^\prime(\mathbf{p}+F_t(\mathbf{p}))=I_0(\mathbf{p})$)

spectral volume(谱体积): 从视频中提取的每像素轨迹的时间傅里叶变换。

频谱分析->解决生成视频的长期时间一致性??

k个频率,(x,y)+- 共4K个channel

对于一张 $H \times W$的图片,每个像素p可以表示为$I_{t}(p) = \Sigma_{k} [Asin(k \omega x t) + B cos(k \omega x t)]$

值得阅读的参考论文

Myers Abraham Davis. Visual vibration analysis. PhD thesis, Massachusetts Institute of Technology, 2016.

Licensed under CC BY-NC-SA 4.0
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计
发表了30篇文章 · 总计0.02k字