目录
一、概述
二、相关工作
三、VideoCrafter1
1、概述
2、去噪过程
3、嵌入过程
4、数据集
5、训练策略
四、实验
一、概述
该论文提出了视频扩散模型(VDM),并且提出了两个高质量视频生成扩散模型:文本到视频模型(T2V)和图像到视频模型(I2V)。T2V模型基于给定的文本输入来生成视频,I2V模型通过在这基础上另外增加图像的输入生成视频。
(1)T2V模型通过LAION COCO 600M,Webvid10M和一个10M的高分辨率视频数据集作为训练集数据生成1024*576分辨率的高质量2s时长的视频。
(2)I2V模型基于T2V模型训练,使用CLIP图像嵌入并通过cross attention注入到SD U-Net中(嵌入方式)。I2V基于LAION COCO 600M,Webvid10M。这也是第一个开源的通用的I2V模型。
二、相关工作
1、近期扩散模型主要应用于内容生成领域(T2I),之后视频扩散模型提出,并text conditioned作为嵌入。
2、ImagenVideo引入一种v-prediction参数化方法并提出级联的扩散模型,来生成高清视频。
3、Seer和VideoComposer用于文本-图像-视频合成,要么关注特定领域,要么无法生成时间连贯的帧和真实的运动。DragNUWA引入了轨迹控制,但不能解决真实的运动问题。
4、近距离文本到视频的扩散模型或者自回归模型证明了I2V的扩展适用性。
三、VideoCrafter1
1、概述
训练过程:原视频通过VAE的编码器部分得到低维的潜在表示,经过加噪扩散得到t步的潜在表示,并通过t步去噪过程得到,并通过VAE解码器得到重构视频数据。
推理过程:直接通过高斯噪音中,加噪扩散并去噪得到潜在表示,并通过VAE解码得到重构视频数据。
其中VAE模块用的SD 2中的预训练VAE模型,并进行了微调。
去噪过程是是一个三维U-Net架构,由一组具有跳跃性连接的时空块组成,包括卷积层,时间Transformer,空间Transformer构成,并且将timestep+fps引入卷积层,text prompt和image prompt引入Transformer中。
2、去噪过程
首先去噪U-Net转变为3D U-Net,之后每一个stack都以conv+ST+TT结构。
其中ST结构和TT结构如下:将输入投影后,接自注意力机制,交叉自注意力机制,MLP再进行反投影。
3、嵌入过程
T2V或者I2V过程都是通过Cross Attention将prompt和交叉计算的,I2V的Image prompt嵌入是残差连接到T2V部分。
Text prompt部分的Cross-Attention:(其中代表空间上flatten后的视频潜在信息tokens,代表Clip text encoder,y代表text prompt)
Image prompt部分,经过Encoder后,进入Projection Net,采用预训练的CLIP图像编码器将输入图像特征投影到文本特征对齐的嵌入空间中,之后再调用 Text prompt部分相同的Cross-Attention。
FPS和timestep分别通过正弦嵌入投影,并输入两层MLP,并concat得到融合嵌入,添加到卷积特征中。FPS用来限制运动速度,timestep是扩散的步数。
后续dynamicrafter中对于这一段的介绍。
4、数据集
VideoCrafter 采用了联合训练图像和视频的策略 。具体使用的数据集包括:
- LAION COCO 数据集: 一个包含 6 亿张高质量图像及其描述的大型文本-图像数据集 。
- WebVid-10M 数据集: 一个包含 1000 万个短视频及其文本描述的大规模视频数据集 。
- 一个自行编译的 1000 万个分辨率大于 1280 × 720 的高质量视频数据集 。
5、训练策略
-
在训练 T2V 模型时,VideoCrafter 采用了从低分辨率到高分辨率的训练策略
- 首先在 256 × 256 分辨率下训练 80K 个迭代,batch size为 256。
- 然后在 512 × 320 分辨率下微调 136K 个迭代,batch size为 128。
- 最后在 1024 × 576 分辨率下微调 45K 个迭代,batch size为 64。、
- 对于 I2V 模型,VideoCrafter 首先训练从图像嵌入到交叉注意力使用的嵌入空间的映射,然后固定文本和图像嵌入的映射,对视频模型进行微调以提高对齐效果。
四、实验
对比Pika Lab,ZeroScope,I2VGen-XL,Gen2的用户研究,针对于视频质量,文生视频的对齐度,运动质量,时间一致性等。
23.10版本的VideoCrafter已经逼近Gen2的水平。
文生视频部分的对比效果。
图生视频部分的效果。
最新23.10版本的效果与之前的对比。
项目地址:https://ailab-cvc.github.io/videocrafter