您的位置:首页 > 科技 > IT业 > 青岛建网站公司_网上商城如何推广_北京seo公司公司_宁波专业seo服务

青岛建网站公司_网上商城如何推广_北京seo公司公司_宁波专业seo服务

2024/12/23 11:09:04 来源:https://blog.csdn.net/huzimu_/article/details/144170678  浏览:    关键词:青岛建网站公司_网上商城如何推广_北京seo公司公司_宁波专业seo服务
青岛建网站公司_网上商城如何推广_北京seo公司公司_宁波专业seo服务

VideoBooth: Diffusion-based Video Generation with Image Prompts

Videos synthesized by image prompts.

概括

文章提出了一个视频生成模型VideoBooth,输入一张图片和一个文本提示词,即可输出保持图片中物体且符合文本提示词要求的视频。

方法

粗-细两阶段设计:1)粗阶段,利用CLIP图像编码器将图片视觉编码注入文本嵌入中,融合后的嵌入送入cross attention层;2)细阶段,将多尺度图片空间信息注入视频生成模型的cross-frame attentions层。
Overview
一些困惑:

  • 多尺度的图片编码是用什么图像编码器获取的?通过VAE获取潜在表征,而这个多尺度,其实就是潜在编码在U-Net在不同阶段的输出。

预备知识

  • 拓展2D卷积:为了处理视频数据和时序关联,我们将SD模型中的2D卷积扩展为了3D卷积。(应该指的是U-Net中的卷积层)
  • 交叉帧注意力模块:SD模型中原本的自注意力模块被修改成了交叉帧注意力模块,以提高时序一致性。交叉帧模块同时处理空间和时序域,因此可以提高合成帧的时序一致性。
  • 时序注意力模块:处理时序域,对所有帧起作用,提高时序一致性。

粗粒度视觉编码

使用CLIP获取图像提示词和文本提示词的编码信息,然后将文本编码中目标物体的编码替换为图像视觉编码,将融合后的视觉-图像编码送入交叉注意力层。CLIP图像编码器是固定的,但是为了对齐图像和文本编码,图像编码会经过MLP层。此外,为了适配融合后的编码,交叉注意力层中的K和V也被微调了。

细粒度视觉编码

这部分的编码信息应该是用来保证时序一致性的。首先通过VAE获取图像潜在编码,然后加噪送入U-Net,每个阶段的U-Net输出(包括最初的潜在编码)对应的K-V都会和原始的K-V进行拼接,初始帧的V被更新,并影响后续所有的Value。

实验

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com