网络营销方式和技巧_自费社保太坑了亏大了_兰州seo新站优化招商_如何开发网站平台

一、概述

二、相关工作

三、VideoCrafter1

1、概述

2、去噪过程

3、嵌入过程

4、数据集

5、训练策略

四、实验

该论文提出了视频扩散模型（VDM），并且提出了两个高质量视频生成扩散模型：文本到视频模型（T2V）和图像到视频模型（I2V）。T2V模型基于给定的文本输入来生成视频，I2V模型通过在这基础上另外增加图像的输入生成视频。

（1）T2V模型通过LAION COCO 600M，Webvid10M和一个10M的高分辨率视频数据集作为训练集数据生成1024*576分辨率的高质量2s时长的视频。

（2）I2V模型基于T2V模型训练，使用CLIP图像嵌入并通过cross attention注入到SD U-Net中（嵌入方式）。I2V基于LAION COCO 600M，Webvid10M。这也是第一个开源的通用的I2V模型。

1、近期扩散模型主要应用于内容生成领域（T2I），之后视频扩散模型提出，并text conditioned作为嵌入。

2、ImagenVideo引入一种v-prediction参数化方法并提出级联的扩散模型，来生成高清视频。

3、Seer和VideoComposer用于文本-图像-视频合成，要么关注特定领域，要么无法生成时间连贯的帧和真实的运动。DragNUWA引入了轨迹控制，但不能解决真实的运动问题。

4、近距离文本到视频的扩散模型或者自回归模型证明了I2V的扩展适用性。

训练过程：原视频 $x_0$ 通过VAE的编码器部分 $\varepsilon$ 得到低维的潜在表示 $z_0$ ， $z_0$ 经过加噪扩散得到t步的潜在表示 $z_t$ ，并通过t步去噪过程得到 $z_0'$ ，并通过VAE解码器得到重构视频数据 $x_0'$ 。

推理过程：直接通过高斯噪音中，加噪扩散并去噪得到潜在表示 $z_0'$ ，并通过VAE解码得到重构视频数据 $x_0'$ 。

其中VAE模块用的SD 2中的预训练VAE模型，并进行了微调。

去噪过程是是一个三维U-Net架构，由一组具有跳跃性连接的时空块组成，包括卷积层，时间Transformer，空间Transformer构成，并且将timestep+fps引入卷积层，text prompt和image prompt引入Transformer中。

首先去噪U-Net转变为3D U-Net，之后每一个stack都以conv+ST+TT结构。

其中ST结构和TT结构如下：将输入投影后，接自注意力机制，交叉自注意力机制，MLP再进行反投影。

T2V或者I2V过程都是通过Cross Attention将prompt和 $F_{in}$ 交叉计算的，I2V的Image prompt嵌入是残差连接到T2V部分。

Text prompt部分的Cross-Attention：（其中 $\varphi _i(z_t)$ 代表空间上flatten后的视频潜在信息tokens， $\phi$ 代表Clip text encoder，y代表text prompt）

Image prompt部分，经过Encoder后，进入Projection Net，采用预训练的CLIP图像编码器将输入图像特征投影到文本特征对齐的嵌入空间中，之后再调用 Text prompt部分相同的Cross-Attention。

FPS和timestep分别通过正弦嵌入投影，并输入两层MLP，并concat得到融合嵌入，添加到卷积特征中。FPS用来限制运动速度，timestep是扩散的步数。

后续dynamicrafter中对于这一段的介绍。

VideoCrafter 采用了联合训练图像和视频的策略。具体使用的数据集包括:

在训练 T2V 模型时,VideoCrafter 采用了从低分辨率到高分辨率的训练策略
- 首先在 256 × 256 分辨率下训练 80K 个迭代，batch size为 256。
- 然后在 512 × 320 分辨率下微调 136K 个迭代，batch size为 128。
- 最后在 1024 × 576 分辨率下微调 45K 个迭代，batch size为 64。、
对于 I2V 模型,VideoCrafter 首先训练从图像嵌入到交叉注意力使用的嵌入空间的映射,然后固定文本和图像嵌入的映射,对视频模型进行微调以提高对齐效果。