非常清晰、直观的Tutorial。
首先从编解码讲起。
过渡到VAE,以VAE作为类比分析。VAE的损失有两项——mse损失和 kl 项。VAE的编码和解码过程都用神经网络,所以编码和解码都有参数需要学习,因此有kl项。且直观解释了ELBO。
扩散模型的编码过程是确定性的,没有参数需要学习,只有解码过程有参数,而参数就是学习逆向转移的条件概率。因此,diffusion 的 kl 项无需训练,所以就只剩下了mse损失。再利用蒙特卡洛近似,实际上就是最小二乘问题。
再过渡到像残差网络一样,学残差,不直接学图像,就是现在见到的损失函数。
推导出扩散模型采样的数学公式,还给出了物理意义。非常直观地说明了逆向的每一步都是增加多样性,而不是为了去噪,这是因为其中第二项已经可以做去噪了。
扩散模型若从加噪讲起,则会匪夷所思为什么要莫名其妙给图像加噪。
最后还讲了另外两种解释——朗之万动力学和随机微分方程。共同点都是和随机采样类似,有一个随机项,直观解释就是增加多样性。
文笔还略带幽默,对于非正式出版的刊物,增加了乐趣。