您的位置:首页 > 新闻 > 会展 > 网络营销方式和技巧_自费社保太坑了亏大了_兰州seo新站优化招商_如何开发网站平台

网络营销方式和技巧_自费社保太坑了亏大了_兰州seo新站优化招商_如何开发网站平台

2025/1/2 15:59:05 来源:https://blog.csdn.net/m0_60177079/article/details/144562124  浏览:    关键词:网络营销方式和技巧_自费社保太坑了亏大了_兰州seo新站优化招商_如何开发网站平台
网络营销方式和技巧_自费社保太坑了亏大了_兰州seo新站优化招商_如何开发网站平台

目录

一、概述

二、相关工作

三、VideoCrafter1

1、概述

2、去噪过程 

3、嵌入过程

4、数据集

5、训练策略

四、实验


一、概述

         该论文提出了视频扩散模型(VDM),并且提出了两个高质量视频生成扩散模型:文本到视频模型(T2V)和图像到视频模型(I2V)。T2V模型基于给定的文本输入来生成视频,I2V模型通过在这基础上另外增加图像的输入生成视频。

(1)T2V模型通过LAION COCO 600M,Webvid10M和一个10M的高分辨率视频数据集作为训练集数据生成1024*576分辨率的高质量2s时长的视频。

(2)I2V模型基于T2V模型训练,使用CLIP图像嵌入并通过cross attention注入到SD U-Net中(嵌入方式)。I2V基于LAION COCO 600M,Webvid10M。这也是第一个开源的通用的I2V模型。

二、相关工作

1、近期扩散模型主要应用于内容生成领域(T2I),之后视频扩散模型提出,并text conditioned作为嵌入。

2、ImagenVideo引入一种v-prediction参数化方法并提出级联的扩散模型,来生成高清视频。

3、Seer和VideoComposer用于文本-图像-视频合成,要么关注特定领域,要么无法生成时间连贯的帧和真实的运动。DragNUWA引入了轨迹控制,但不能解决真实的运动问题。

4、近距离文本到视频的扩散模型或者自回归模型证明了I2V的扩展适用性。

三、VideoCrafter1

1、概述

        训练过程:原视频x_0通过VAE的编码器部分\varepsilon得到低维的潜在表示z_0z_0经过加噪扩散得到t步的潜在表示z_t,并通过t步去噪过程得到z_0',并通过VAE解码器得到重构视频数据x_0'

        推理过程:直接通过高斯噪音中,加噪扩散并去噪得到潜在表示z_0',并通过VAE解码得到重构视频数据x_0'

        其中VAE模块用的SD 2中的预训练VAE模型,并进行了微调。

        去噪过程是是一个三维U-Net架构,由一组具有跳跃性连接的时空块组成,包括卷积层,时间Transformer,空间Transformer构成,并且将timestep+fps引入卷积层,text prompt和image prompt引入Transformer中。

2、去噪过程 

        首先去噪U-Net转变为3D U-Net,之后每一个stack都以conv+ST+TT结构。

        其中ST结构和TT结构如下:将输入投影后,接自注意力机制,交叉自注意力机制,MLP再进行反投影。

3、嵌入过程

        T2V或者I2V过程都是通过Cross Attention将prompt和F_{in}交叉计算的,I2V的Image prompt嵌入是残差连接到T2V部分。

        Text prompt部分的Cross-Attention:(其中\varphi _i(z_t)代表空间上flatten后的视频潜在信息tokens,\phi代表Clip text encoder,y代表text prompt)

         Image prompt部分,经过Encoder后,进入Projection Net,采用预训练的CLIP图像编码器将输入图像特征投影到文本特征对齐的嵌入空间中,之后再调用 Text prompt部分相同的Cross-Attention。

        FPS和timestep分别通过正弦嵌入投影,并输入两层MLP,并concat得到融合嵌入,添加到卷积特征中。FPS用来限制运动速度,timestep是扩散的步数。

        后续dynamicrafter中对于这一段的介绍。

4、数据集

        VideoCrafter 采用了联合训练图像和视频的策略 。具体使用的数据集包括:

  • LAION COCO 数据集: 一个包含 6 亿张高质量图像及其描述的大型文本-图像数据集 。
  • WebVid-10M 数据集: 一个包含 1000 万个短视频及其文本描述的大规模视频数据集 。
  • 一个自行编译的 1000 万个分辨率大于 1280 × 720 的高质量视频数据集 。

5、训练策略

  • 在训练 T2V 模型时,VideoCrafter 采用了从低分辨率到高分辨率的训练策略

    • 首先在 256 × 256 分辨率下训练 80K 个迭代,batch size为 256。
    • 然后在 512 × 320 分辨率下微调 136K 个迭代,batch size为 128。
    • 最后在 1024 × 576 分辨率下微调 45K 个迭代,batch size为 64。、
  • 对于 I2V 模型,VideoCrafter 首先训练从图像嵌入到交叉注意力使用的嵌入空间的映射,然后固定文本和图像嵌入的映射,对视频模型进行微调以提高对齐效果。

四、实验

        对比Pika Lab,ZeroScope,I2VGen-XL,Gen2的用户研究,针对于视频质量,文生视频的对齐度,运动质量,时间一致性等。

                 23.10版本的VideoCrafter已经逼近Gen2的水平。

        文生视频部分的对比效果。 

         图生视频部分的效果。

        最新23.10版本的效果与之前的对比。

 

项目地址:https://ailab-cvc.github.io/videocrafter 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com