您的位置:首页 > 汽车 > 新车 > 中华人民共和国主席列表_恒大地产_长沙网站建设公司_网络营销热点事件案例分析

中华人民共和国主席列表_恒大地产_长沙网站建设公司_网络营销热点事件案例分析

2024/10/22 23:17:39 来源:https://blog.csdn.net/buganything/article/details/142391031  浏览:    关键词:中华人民共和国主席列表_恒大地产_长沙网站建设公司_网络营销热点事件案例分析
中华人民共和国主席列表_恒大地产_长沙网站建设公司_网络营销热点事件案例分析

论文名称:High-Resolution Image Synthesis with Latent Diffusion Models

论文地址:arxiv.org/pdf/2112.10752v2

项目地址:GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model

        潜在扩散模型(LDMs)通过在预训练的自动编码器的潜在空间中应用扩散模型,实现了高分辨率图像合成。这种方法的关键是在像素空间和潜在空间之间找到一个平衡点,既能减少计算复杂性,又能保留足够的细节信息。

核心思想

  1. 分解图像形成过程:将图像形成过程分解为去噪自编码器的顺序应用,这种分解允许在不重新训练的情况下通过引导机制控制图像生成过程。

  2. 潜在空间的应用:在强大的预训练自动编码器的潜在空间中应用扩散模型,这允许在降低计算复杂性的同时,保持图像质量。

  3. 跨注意力层:通过引入跨注意力层,将扩散模型转变为能够处理一般条件输入(如文本或边界框)的强大且灵活的生成器。

说明感知和语义压缩:数字图像的大多数位对应于难以察觉的细节。虽然 DMsallow 通过最小化负责任的损失项来抑制这种语义上无意义的信息,但梯度(在训练期间)和神经网络主干(训练和推理)仍然需要在所有像素上进行评估,从而导致多余的计算和不必要的昂贵优化和推理。我们提出潜在扩散模型 (LDM) 作为一种有效的生成模型和一个单独的轻度压缩阶段,仅消除难以察觉的细节。数据和图像来自 [30]。

 

1. 模型框架

通过串联或更通用的交叉注意力机制来调节 LDM。

LDMs的核心框架包括以下几个关键步骤:

  1. 感知图像压缩: 通过训练一个自动编码器(由编码器E和解码器D组成),将高维的像素空间压缩到低维的潜在空间,同时尽量保留感知上重要的信息。这一步使用了感知损失和对抗性损失来训练自动编码器。

  2. 潜在扩散模型: 在低维的潜在空间上训练扩散模型,通过逐步去噪的方式生成图像。相比于在像素空间训练,在潜在空间训练扩散模型大大减少了计算复杂度。

  3. 条件机制: 通过引入跨注意力层,将条件信息(如文本、图像等)编码为潜在表示,并将其融入扩散模型中。这使得LDMs能够进行条件图像生成。

2. 感知图像压缩

感知图像压缩的目标是学习一个从像素空间到潜在空间的映射,同时保留图像的重要信息。具体步骤如下:

(1) 使用编码器E将输入图像x编码为潜在表示z=E(x)。

(2) 使用解码器D将潜在表示z解码为重建图像x'=D(z)。

(3) 训练自动编码器,使其重建误差最小化,同时使用感知损失和对抗性损失来保证重建图像的质量。

(4) 为了控制潜在空间的尺度,引入正则化项,包括KL散度和向量量化。

3. 潜在扩散模型

在潜在空间上训练扩散模型,具体步骤如下:

(1) 定义一个从数据分布逐渐加入噪声的过程,形成噪声数据分布。

(2) 训练一个神经网络来预测每一步的去噪结果,即预测噪声数据的去噪版本。

(3) 通过最小化重构误差来训练去噪模型,使其能够逐步还原出干净的数据分布。

(4) 在生成阶段,从噪声分布中采样并逐步去噪,最终生成目标图像。

4. 条件机制

为了让LDMs能够进行条件图像生成,引入了跨注意力层作为条件机制。具体步骤如下:

(1) 对于文本、图像等条件输入,使用特定的编码器(如BERT)将其编码为潜在表示。

(2) 将条件潜在表示通过跨注意力层融入扩散模型的UNet网络中。

(3) 在训练阶段,最小化条件图像的重构误差,使模型能够根据条件信息生成相应的图像。

(4) 在生成阶段,提供条件信息并进行扩散过程,生成与条件信息一致的图像。

实验结果

  • LDMs在图像修复、类条件图像合成以及各种任务(包括文本到图像合成、无条件图像生成和超分辨率)上取得了新的最先进成绩。
  • 与基于像素的扩散模型相比,LDMs在显著降低计算需求的同时,保持了竞争力的性能。
来自在 CelebAHQ [39]、FFHQ [41]、LSUN-Churches [102]、LSUN-Bedrooms [102] 和类条件 ImageNet [12] 上训练的 LDM 样本,每个分辨率为 256 256。放大时查看效果最佳。更多示例参见 Supplement.

用户定义的文本提示样本来自我们的文本到图像合成模型 LDM-8(KL),该模型是在 LAION[78] 数据库上训练的
当提供语义映射作为条件时,我们的 LDM 泛化为比训练期间看到的分辨率大得多的分辨率。尽管此模型是在大小为 2562 的输入上进行训练的,但它可用于创建高分辨率样本,如此处所示,分辨率为 1024 384。

社会影响和局限性

  • 社会影响:生成模型可能被用于创造和传播操纵数据或虚假信息,需要谨慎使用。
  • 局限性:尽管LDMs减少了计算需求,但其顺序采样过程仍然比GANs慢。在需要高精度的应用中,自动编码器的重建能力可能成为瓶颈。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com