您的位置:首页 > 汽车 > 时评 > Tutorial on Diffusion Models for Imaging and Vision

Tutorial on Diffusion Models for Imaging and Vision

2024/11/16 11:28:21 来源:https://blog.csdn.net/u013600306/article/details/141754267  浏览:    关键词:Tutorial on Diffusion Models for Imaging and Vision

非常清晰、直观的Tutorial。
在这里插入图片描述
首先从编解码讲起。
在这里插入图片描述

过渡到VAE,以VAE作为类比分析。VAE的损失有两项——mse损失和 kl 项。VAE的编码和解码过程都用神经网络,所以编码和解码都有参数需要学习,因此有kl项。且直观解释了ELBO。

扩散模型的编码过程是确定性的,没有参数需要学习,只有解码过程有参数,而参数就是学习逆向转移的条件概率。因此,diffusion 的 kl 项无需训练,所以就只剩下了mse损失。再利用蒙特卡洛近似,实际上就是最小二乘问题。
在这里插入图片描述

再过渡到像残差网络一样,学残差,不直接学图像,就是现在见到的损失函数。

推导出扩散模型采样的数学公式,还给出了物理意义。非常直观地说明了逆向的每一步都是增加多样性,而不是为了去噪,这是因为其中第二项已经可以做去噪了。
在这里插入图片描述

扩散模型若从加噪讲起,则会匪夷所思为什么要莫名其妙给图像加噪。

最后还讲了另外两种解释——朗之万动力学和随机微分方程。共同点都是和随机采样类似,有一个随机项,直观解释就是增加多样性。

文笔还略带幽默,对于非正式出版的刊物,增加了乐趣。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com