Tutorial on Diffusion Models for Imaging and Vision

2025/10/21 7:02:37 来源：https://blog.csdn.net/u013600306/article/details/141754267 浏览: 次关键词：Tutorial on Diffusion Models for Imaging and Vision

非常清晰、直观的Tutorial。
在这里插入图片描述
首先从编解码讲起。

过渡到VAE，以VAE作为类比分析。VAE的损失有两项——mse损失和 kl 项。VAE的编码和解码过程都用神经网络，所以编码和解码都有参数需要学习，因此有kl项。且直观解释了ELBO。

扩散模型的编码过程是确定性的，没有参数需要学习，只有解码过程有参数，而参数就是学习逆向转移的条件概率。因此，diffusion 的 kl 项无需训练，所以就只剩下了mse损失。再利用蒙特卡洛近似，实际上就是最小二乘问题。
在这里插入图片描述

再过渡到像残差网络一样，学残差，不直接学图像，就是现在见到的损失函数。

推导出扩散模型采样的数学公式，还给出了物理意义。非常直观地说明了逆向的每一步都是增加多样性，而不是为了去噪，这是因为其中第二项已经可以做去噪了。
在这里插入图片描述

扩散模型若从加噪讲起，则会匪夷所思为什么要莫名其妙给图像加噪。

最后还讲了另外两种解释——朗之万动力学和随机微分方程。共同点都是和随机采样类似，有一个随机项，直观解释就是增加多样性。

文笔还略带幽默，对于非正式出版的刊物，增加了乐趣。

最新新闻