您的位置:首页 > 房产 > 建筑 > 网站建设规划表_创建网站的代码_青岛百度代理公司_夜狼seo

网站建设规划表_创建网站的代码_青岛百度代理公司_夜狼seo

2024/12/23 15:53:56 来源:https://blog.csdn.net/m0_53700832/article/details/144434477  浏览:    关键词:网站建设规划表_创建网站的代码_青岛百度代理公司_夜狼seo
网站建设规划表_创建网站的代码_青岛百度代理公司_夜狼seo

图像恢复与均值回归随机微分方程

翻译:

摘要
本文提出了一种基于随机微分方程(SDE)的方法,用于通用图像恢复。关键构建是一个均值回归的随机微分方程,它将一幅高质量的图像转化为一个退化的图像,这个退化图像被视为具有固定高斯噪声的均值状态。然后,通过模拟相应的反向时间随机微分方程,我们能够恢复低质量图像的原始状态,而无需依赖任何特定任务的先验知识。关键在于,所提出的均值回归随机微分方程有一个封闭解,使我们能够计算出与时间相关的真实得分,并通过神经网络进行学习。此外,我们提出了一个最大似然目标,以学习一个最优的反向轨迹,从而稳定训练过程并改善恢复结果。实验表明,我们提出的方法在图像去雨、去模糊和去噪的定量比较中表现出色,在两个去雨数据集上设立了新的最先进的水平。最后,通过图像超分辨率、修复和去雾的定性结果,进一步展示了我们方法的广泛适用性。代码可在 https://github.com/Algolzw/image-restoration-sde 获得。

解释:

这篇论文介绍了一种新的图像恢复方法,使用的是一种叫做“随机微分方程”(SDE)的数学模型。核心思路是:通过一个均值回归的过程,模拟从一张高质量的图像到一张降级(模糊、噪声等)图像的转化。这种转化过程是通过加入固定的噪声来实现的,类似于“污染”图像。然后,通过逆向模拟这个过程,我们能够恢复出原始的高质量图像。

这项技术特别之处在于,它不依赖于特定领域的知识或复杂的预处理,仅依赖这个均值回归的随机微分方程,且这个方程有明确的数学解,因此可以通过神经网络来学习和恢复图像。为了让这个恢复过程更加稳定和有效,作者还提出了一种最大似然方法来优化图像恢复的路径。

实验结果表明,这种方法在去除雨滴、去模糊和去噪等任务上表现非常好,并且在去雨任务中创下了新的最佳记录。作者还展示了这项方法在其他任务(如图像超分辨率、图像修复和去雾)中的广泛应用,证明了它的通用性。代码也已经公开,感兴趣的人可以在 GitHub 上找到并使用。

翻译:

  1. 引言
    扩散模型在各种图像生成任务中表现出了令人印象深刻的性能,基于建模扩散过程并学习其逆过程(Sohl-Dickstein 等,2015;Ho 等,2020;Song & Ermon,2019;2020;Song 等,2021a;b;c;Rombach 等,2022;Rissanen 等,2022)。在常用的几种模型中(Yang 等,2022),我们采用通过随机微分方程(SDEs,Song 等,2021b;c)定义的扩散模型。这一过程包括使用 SDE 将图像逐渐扩散到纯噪声分布,然后通过学习并模拟相应的反向时间 SDE 来生成样本(Anderson,1982)。其核心是训练神经网络来估计噪声数据分布的得分函数(Song & Ermon,2019)。
    图像恢复是一个从退化的低质量图像中恢复高质量图像的通用任务。常见的具体任务包括去雨(Li 等,2019;Ren 等,2019)、去模糊(Nah 等,2017;Zhang 等,2020)、去噪(Zhang 等,2017a;2018a)和超分辨率(Dong 等,2015;Lugmayr 等,2020;Luo 等,2022a)等,仅举几例。图像恢复有着丰富的历史(Hunt,1973;Andrews,1974;Sezan & Tekalp,1990;Banham & Katsaggelos,1997),并且仍然是计算机视觉领域中的一个活跃话题,学习型方法在其中占据了重要地位(Zhang & Zuo,2017;Zhang 等,2017b;Wang 等,2022;Xiao 等,2022)。

解释:

在这段文字中,作者介绍了扩散模型的基本概念和它在图像恢复任务中的应用。扩散模型是一种图像生成方法,它首先通过模拟一个扩散过程将清晰图像逐渐转变成噪声,然后通过学习该过程的反向过程,生成新的图像。关键技术是利用随机微分方程(SDE)来描述这个过程,训练神经网络来预测噪声图像的“得分函数”,即如何通过反向过程恢复出清晰的图像。

图像恢复是一个涉及从低质量图像中恢复高质量图像的任务,常见的例子包括去除图像中的雨滴(去雨)、去除模糊(去模糊)、去除噪声(去噪)和提升图像分辨率(超分辨率)等。图像恢复技术已经有了很长的历史,并且随着深度学习的兴起,学习型方法在这些任务中变得尤为重要。


翻译:

扩散模型最近被应用于不同的图像恢复任务。Saharia 等人(2022b;a)训练了条件化的扩散模型,以低质量图像为条件,而 Lugmayr 等人(2022)则利用了预训练的无条件模型,并结合了修改过的生成过程。其他研究则显式地将图像恢复视为一个逆问题,假设在测试时已知退化过程及其参数(Kawar 等人,2021;Chung 等人,2023;Kawar 等人,2022)。这些方法都采用了标准的前向过程,将图像扩散成纯噪声。因此,反向(生成)过程通常以高方差的噪声初始化,这可能导致恢复出的高质量图像与原图之间差异较大。许多实验表明,尽管扩散模型能在感知评分上表现更好,但在某些基于像素或结构的失真标准上往往表现不佳(Saharia 等,2022b;Li 等,2022;Kawar 等,2021)。
为了解决这个问题,我们提出使用均值回归的随机微分方程(SDE)来解决图像恢复问题。如图1所示,我们通过修改前向过程,使其能够模拟图像退化过程,从高质量图像到低质量图像的转变。通过模拟相应的反向时间 SDE,可以恢复出高质量图像。值得注意的是,在测试时,恢复过程不需要任何特定任务的先验知识,只需一对图像作为训练数据。我们的主要贡献如下:

  • 我们提出了一种通用的图像恢复方法,使用均值回归 SDE 直接建模图像退化过程。我们的公式具有封闭解,使得我们能够计算出与时间相关的真实得分函数,并训练神经网络来估计它。
  • 我们提出了一种简单的替代损失函数,用于训练神经网络,基于最大化反向时间轨迹的似然性。证明该损失函数能够稳定训练,并始终改善图像恢复性能,相比于常见的得分匹配目标。
  • 我们通过应用于六个不同的图像恢复任务(去雨、去模糊、去噪、超分辨率、修复和去雾),展示了我们方法的广泛适用性。
  • 我们的方法在图像去雨、去模糊和去噪的定量比较中取得了非常具有竞争力的恢复性能,并在两个去雨数据集上设立了新的最先进水平。

解释:

这段文字介绍了图像恢复中使用扩散模型的不同方法,并提出了一种新的方法来改进图像恢复效果。

  • 过去的扩散模型常常把图像逐渐扩散成噪声,再通过反向过程恢复图像,但这种方法通常会导致恢复的图像与原始高质量图像之间有较大的差距。
  • 为了解决这个问题,作者提出了一个新的方法——使用“均值回归随机微分方程”(SDE)来模拟图像退化过程。这个方法不仅能模拟从高质量图像到低质量图像的退化过程,还能在测试时直接恢复出高质量图像,且无需额外的任务特定先验知识。
  • 该方法的一个重要创新是,它具有封闭解,可以帮助计算真实的时间相关得分,并通过神经网络来学习这些得分函数。此外,作者还提出了一种新的损失函数,能够帮助稳定训练过程并提高恢复效果。
  • 通过在六种图像恢复任务(去雨、去模糊、去噪、超分辨率、修复和去雾)中的应用,作者证明了该方法的通用性,并在两个去雨数据集上取得了新的最先进成绩。

简而言之,作者提出的方法在图像恢复领域表现出色,尤其是在去雨、去模糊和去噪任务中,并且它的广泛适用性使得它在其他任务中也能得到很好的应用。


翻译:

  1. 背景
    在这一部分,我们简要回顾了基于随机微分方程(SDE)的扩散模型的关键概念,并展示了如何使用逆向时间SDE生成样本的过程。设 p 0 p_0 p0表示代表数据的初始分布, t ∈ [ 0 , T ] t \in [0, T] t[0,T]表示连续时间变量。我们考虑一个由SDE定义的扩散过程 { x ( t ) } t = 0 T \{x(t)\}_{t=0}^{T} {x(t)}t=0T,形式如下:
    d x = f ( x , t ) d t + g ( t ) d w , x ( 0 ) ∼ p 0 ( x ) , ( 1 ) dx = f(x, t) dt + g(t) dw, \quad x(0) \sim p_0(x), \quad (1) dx=f(x,t)dt+g(t)dw,x(0)p0(x),(1)
    其中 f f f g g g分别是漂移和扩散函数, w w w是一个标准Wiener过程, x ( 0 ) ∈ R d x(0) \in \mathbb{R}^d x(0)Rd是一个初始条件。通常,终端状态 x ( T ) x(T) x(T)遵循具有固定均值和方差的高斯分布。一般的想法是设计这样一个SDE,使其逐渐将数据分布转化为固定的高斯噪声(Song et al., 2021c; Lu et al., 2022; De Bortoli et al., 2022)。然后我们可以通过时间逆向模拟SDE从噪声中采样数据(Song et al., 2021c)。Anderson (1982) 表明,SDE (1) 的逆向时间表示为:
    d x = [ h f ( x , t ) − g ( t ) 2 2 ∇ x log ⁡ p t ( x ) ] d t + g ( t ) d w ^ , ( 2 ) dx = \left[ h f(x, t) - \frac{g(t)^2}{2} \nabla_x \log p_t(x) \right] dt + g(t) d\hat{w}, \quad (2) dx=[hf(x,t)2g(t)2xlogpt(x)]dt+g(t)dw^,(2)
    其中 x ( T ) ∼ p T ( x ) x(T) \sim p_T(x) x(T)pT(x)。这里, w ^ \hat{w} w^是一个逆向时间Wiener过程, p t ( x ) p_t(x) pt(x)代表时间 t t t x ( t ) x(t) x(t)的边际概率密度函数。得分函数 ∇ x log ⁡ p t ( x ) \nabla_x \log p_t(x) xlogpt(x)通常难以处理,因此基于SDE的扩散模型通过训练一个时间依赖的神经网络 s θ ( x , t ) s_\theta(x, t) sθ(x,t)在所谓的得分匹配目标下近似它(Hyva ̈rinen, 2005; Song et al., 2021c)。

解释:

想象一下,我们有一堆数据,这些数据开始时是有序的,并且遵循某种分布,我们称之为初始分布 p 0 p_0 p0。现在,我们想要通过模拟一个过程,让这些数据逐渐变得像随机噪声一样,这个过程可以用一个随机微分方程(SDE)来描述。这个SDE有一个漂移项 f ( x , t ) f(x, t) f(x,t)和一个扩散项 g ( t ) g(t) g(t),漂移项决定了数据随时间的平均变化方向,而扩散项决定了数据变化的随机性大小。随着时间的推移,这些数据最终会变成像高斯分布那样的随机噪声。

现在,如果我们想要从这些随机噪声中恢复出原来的数据,我们可以将这个过程反过来,也就是逆向模拟这个SDE。这样,我们就可以从未成形的噪声中生成出有意义的数据样本。但是,在这个逆向过程中,我们需要知道数据在每个时间点的概率密度函数 p t ( x ) p_t(x) pt(x),这通常很难直接得到。因此,我们使用一个神经网络来近似这个概率密度函数的梯度,也就是得分函数 ∇ x log ⁡ p t ( x ) \nabla_x \log p_t(x) xlogpt(x),这样我们就可以在不知道确切概率密度函数的情况下,通过训练神经网络来模拟这个过程。


翻译:

  1. 方法
    我们提出的图像恢复方法的核心思想是将均值回复的随机微分方程(SDE)与最大似然目标结合,进行神经网络训练。因此,我们将其称为图像恢复随机微分方程(IR-SDE)。我们首先描述均值回复 SDE 的正向和反向过程,并调整先前描述的基于得分的训练方法来估计该 SDE。然后,我们描述并将其与基于最大似然目标的损失函数进行对比。
3.1 图像退化的正向 SDE

我们构造了 SDE(1)的一个特殊情况,其中得分函数是可解析处理的,如下所示:

d x = θ t ( μ − x ) d t + σ t d w , dx = \theta_t (\mu - x) dt + \sigma_t dw, dx=θt(μx)dt+σtdw,

其中 μ \mu μ 是状态的均值, θ t \theta_t θt σ t \sigma_t σt 是时间依赖的正参数,分别控制均值回复的速度和随机波动性。选择 θ t \theta_t θt σ t \sigma_t σt 有很大的自由度,正如我们将在第 5.3 节中看到的,选择的不同可能会对最终的恢复性能产生显著影响。

通常, μ \mu μ 和初始状态 x ( 0 ) x(0) x(0) 可以设置为任何一对不同的图像。正向 SDE(3)然后将一个图像转化为另一个图像,作为一种噪声插值。为了进行图像退化,我们令 x ( 0 ) x(0) x(0) μ \mu μ 分别为真实高质量(HQ)图像和其退化后的低质量(LQ)对应图像(见图 1)。值得注意的是,虽然 μ \mu μ 依赖于 x ( 0 ) x(0) x(0)(因为它们是同一物体或场景的配对 HQLQ 图像), x ( 0 ) x(0) x(0) 与布朗运动无关,因此 SDE 仍然在伊藤(Ito)意义下是有效的。

为了使我们的 SDE(3)具有闭式解,我们设置 σ t 2 θ t = 2 λ 2 \frac{\sigma_t^2}{\theta_t} = 2 \lambda^2 θtσt2=2λ2,其中 λ 2 \lambda^2 λ2 是稳定方差。由此,我们得到以下结果:

命题 3.1 假设(3)中的 SDE 系数满足 σ t 2 θ t = 2 λ 2 \frac{\sigma_t^2}{\theta_t} = 2 \lambda^2 θtσt2=2λ2,对于所有时间 t t t,那么,给定任何时间 s < t s < t s<t 的起始状态 x ( s ) x(s) x(s),SDE 的解为:

x ( t ) = μ + ( x ( s ) − μ ) e − θ s : t + ∫ s t σ z e − θ z : t d w ( z ) , x(t) = \mu + (x(s) - \mu) e^{-\theta_{s:t}} + \int_s^t \sigma_z e^{-\theta_{z:t}} dw(z), x(t)=μ+(x(s)μ)eθs:t+stσzeθz:tdw(z),

其中 θ s : t : = ∫ s t θ z d z \theta_{s:t} := \int_s^t \theta_z dz θs:t:=stθzdz 是已知的,过渡核 p ( x ( t ) ∣ x ( s ) ) = N ( x ( t ) ∣ m s : t ( x ( s ) ) , v s : t ) p(x(t) | x(s)) = \mathcal{N}(x(t) | m_{s:t}(x(s)), v_{s:t}) p(x(t)x(s))=N(x(t)ms:t(x(s)),vs:t) 是一个高斯分布,均值为 m s : t m_{s:t} ms:t,方差为 v s : t v_{s:t} vs:t,给定为:

m s : t ( x ( s ) ) : = μ + ( x ( s ) − μ ) e − θ s : t , m_{s:t}(x(s)) := \mu + (x(s) - \mu) e^{-\theta_{s:t}}, ms:t(x(s)):=μ+(x(s)μ)eθs:t,

v s : t : = ∫ s t σ z 2 e − 2 θ z : t d z = λ 2 ( 1 − e − 2 θ s : t ) . v_{s:t} := \int_s^t \sigma_z^2 e^{-2 \theta_{z:t}} dz = \lambda^2 \left( 1 - e^{-2 \theta_{s:t}} \right). vs:t:=stσz2e2θz:tdz=λ2(1e2θs:t).

证明见附录 A。为了简化符号,当起始状态是 x ( 0 ) x(0) x(0) 时,我们将 θ 0 : t \theta_{0:t} θ0:t m 0 : t m_{0:t} m0:t v 0 : t v_{0:t} v0:t 分别替换为 θ t \theta_t θt m t m_t mt v t v_t vt。于是,给定初始状态,任意时刻 t t t x ( t ) x(t) x(t) 的分布为:

p t ( x ) = N ( x ( t ) ∣ m t ( x ) , v t ) , p_t(x) = \mathcal{N}(x(t) | m_t(x), v_t), pt(x)=N(x(t)mt(x),vt),

m t ( x ) : = μ + ( x ( 0 ) − μ ) e − θ t , m_t(x) := \mu + (x(0) - \mu) e^{-\theta_t}, mt(x):=μ+(x(0)μ)eθt,

v t : = λ 2 ( 1 − e − 2 θ t ) . v_t := \lambda^2 \left( 1 - e^{-2 \theta_t} \right). vt:=λ2(1e2θt).

注意,当 t → ∞ t \to \infty t 时,均值 m t m_t mt 收敛到低质量图像 μ \mu μ,方差 v t v_t vt 收敛到稳定方差 λ 2 \lambda^2 λ2(因此称为“均值回复”)。换句话说,正向 SDE(3)将高质量图像扩散为具有固定高斯噪声的低质量图像。

解释:

这段话介绍了我们图像恢复方法中的核心部分,即如何通过均值回复的随机微分方程(SDE)来描述图像的退化过程。

  1. 图像退化的正向 SDE:我们首先定义了一个特殊的 SDE(3),用于描述图像如何从高质量(HQ)图像变为低质量(LQ)图像。在这个过程中,图像通过一个控制均值回复速度( θ t \theta_t θt)和波动性( σ t \sigma_t σt)的方程逐渐退化。

  2. 均值回复:在这个 SDE 中, μ \mu μ 代表目标的低质量图像, x ( 0 ) x(0) x(0) 是原始的高质量图像。通过模拟这个 SDE,我们将高质量图像转化为低质量图像,并在这个过程中引入噪声。这个过程被称为“均值回复”,即图像逐渐接近低质量图像,并带有一定的噪声。

  3. 闭式解:为了方便分析,我们通过一个特定的条件( σ t 2 θ t = 2 λ 2 \frac{\sigma_t^2}{\theta_t} = 2 \lambda^2 θtσt2=2λ2)使得该 SDE 具有闭式解。这样,我们可以描述在任意时刻 t t t,图像状态的均值和方差,进而帮助我们恢复图像。

总的来说,正向 SDE 通过模拟图像的退化过程,将高质量图像变为低质量图像,并且可以通过反向 SDE 进行图像恢复。


翻译:

3.2 反向 SDE 用于图像恢复

为了从终态 x ( T ) x(T) x(T) 恢复高质量图像,我们根据公式(2)反向推导 SDE(3),得到图像恢复 SDE(IR-SDE):

d x = θ t ( μ − x ) − σ t 2 2 ∇ x log ⁡ p t ( x ) d t + σ t d w ^ . dx = \theta_t (\mu - x) - \frac{\sigma_t^2}{2} \nabla_x \log p_t(x) \, dt + \sigma_t \, dw^{\hat{}}. dx=θt(μx)2σt2xlogpt(x)dt+σtdw^.

在测试时,唯一未知的部分是在时刻 t t t 的边际分布的得分 ∇ x log ⁡ p t ( x ) \nabla_x \log p_t(x) xlogpt(x)。但是在训练时,真实的高质量图像 x ( 0 ) x(0) x(0) 是可用的,因此我们可以训练一个神经网络来估计条件得分 ∇ x log ⁡ p t ( x ∣ x ( 0 ) ) \nabla_x \log p_t(x | x(0)) xlogpt(xx(0))。具体地,我们可以使用公式(6)计算真实的得分:

∇ x log ⁡ p t ( x ∣ x ( 0 ) ) = − x ( t ) − m t ( x ) v t . \nabla_x \log p_t(x | x(0)) = - \frac{x(t) - m_t(x)}{v_t}. xlogpt(xx(0))=vtx(t)mt(x).

这类似于标准的去噪得分匹配方法,它也基于干净图像及其噪声对应图像计算真实得分(Hyv ̈arinen, 2005)。

此外,如果我们将 x ( t ) x(t) x(t) 重新参数化为 x ( t ) = m t ( x ) + v t ϵ t x(t) = m_t(x) + \sqrt{v_t} \, \epsilon_t x(t)=mt(x)+vt ϵt,其中 ϵ t \epsilon_t ϵt 是标准高斯噪声 ϵ t ∼ N ( 0 , I ) \epsilon_t \sim \mathcal{N}(0, I) ϵtN(0,I),我们可以直接通过噪声来获得得分:

∇ x log ⁡ p t ( x ∣ x ( 0 ) ) = − ϵ t v t . \nabla_x \log p_t(x | x(0)) = - \frac{\sqrt{\epsilon_t}}{v_t}. xlogpt(xx(0))=vtϵt .

然后,我们遵循常规做法,通过噪声网络来逼近噪声(Ho et al., 2020),即一个条件时间依赖的神经网络 ϵ ~ ϕ ( x ( t ) , μ , t ) \tilde{\epsilon}_\phi(x(t), \mu, t) ϵ~ϕ(x(t),μ,t),它将状态 x x x、条件 μ \mu μ 和时间 t t t 作为输入,并输出纯噪声。这样的网络可以使用与 DDPM 中类似的目标进行训练(Ho et al., 2020):

L γ ( ϕ ) : = ∑ i = 1 T γ i E [ ∥ ϵ ~ ϕ ( x i , μ , i ) − ϵ i ∥ 2 ] , L_\gamma(\phi) := \sum_{i=1}^{T} \gamma_i \mathbb{E} \left[ \| \tilde{\epsilon}_\phi(x_i, \mu, i) - \epsilon_i \|^2 \right], Lγ(ϕ):=i=1TγiE[ϵ~ϕ(xi,μ,i)ϵi2],

其中 γ 1 , … , γ T \gamma_1, \dots, \gamma_T γ1,,γT 是正的权重, { x i } i = 0 T \{x_i\}_{i=0}^{T} {xi}i=0T 表示扩散过程的离散化。一旦训练完成,我们可以使用网络 ϵ ~ ϕ \tilde{\epsilon}_\phi ϵ~ϕ 生成高质量图像,通过对噪声状态 x T x_T xT 进行采样,并迭代地求解图像恢复 SDE(7),采用数值方案,如欧拉–马鲁亚马方法或米尔斯坦方法(Mil’stein, 1975)。

解释:

这段话描述了如何利用反向随机微分方程(SDE)恢复图像。具体过程如下:

  1. 反向 SDE:我们从图像的终态 x ( T ) x(T) x(T) 开始,通过反向推导得到恢复图像的方程(图像恢复 SDE)。该方程中,最重要的部分是得分 ∇ x log ⁡ p t ( x ) \nabla_x \log p_t(x) xlogpt(x),它描述了图像在每个时刻的状态。得分在训练时可以通过已知的高质量图像 x ( 0 ) x(0) x(0) 来估算,但在测试时我们需要从噪声中恢复得分。

  2. 得分计算:在训练过程中,由于真实的高质量图像 x ( 0 ) x(0) x(0) 是已知的,我们可以通过公式(8)计算得分,即通过当前图像 x ( t ) x(t) x(t) 和其均值 m t ( x ) m_t(x) mt(x) 来估计得分。这就像去噪时,我们通过干净的图像和带噪声的图像来估计噪声的得分(Hyv ̈arinen, 2005)。

  3. 噪声重参数化:为了方便计算,我们将图像 x ( t ) x(t) x(t) 重新表达为均值 m t ( x ) m_t(x) mt(x) 加上噪声项 v t ϵ t \sqrt{v_t} \, \epsilon_t vt ϵt,其中 ϵ t \epsilon_t ϵt 是一个标准高斯噪声。这使得我们可以直接通过噪声来计算得分(公式9)。

  4. 噪声网络:为了训练模型,使用了一个噪声网络 ϵ ~ ϕ \tilde{\epsilon}_\phi ϵ~ϕ,它接受图像状态 x ( t ) x(t) x(t)、低质量图像 μ \mu μ 和时间 t t t 作为输入,输出噪声值。通过对这个噪声网络进行训练,我们可以使其能够在测试时预测恢复图像。

  5. 训练目标:我们使用一个目标函数(公式10)来训练噪声网络,目标是让网络的输出噪声尽可能接近真实噪声。通过这个训练,我们让网络学会如何从噪声中恢复出高质量的图像。

  6. 图像恢复:一旦网络训练完成,就可以通过采样初始噪声状态 x T x_T xT,并迭代求解反向 SDE,逐步恢复高质量图像。求解时,使用数值方法如欧拉法或米尔斯坦方法进行计算。


翻译

3.3 最大似然学习

尽管公式 (10) 中的目标函数提供了一种简单的方法来学习评分函数,我们在实际应用中发现,当将其应用于图像恢复中的复杂退化时,训练往往变得不稳定。我们推测这种困难来源于试图学习在某一时刻的瞬时噪声。因此,我们提出了一种替代的最大似然目标,基于寻找给定高质量图像 x 0 x_0 x0 时的最优轨迹 x 1 : T x_{1:T} x1:T 的思路。请注意,这个目标并不是为了学习一个更准确的评分函数,而是用来稳定训练并恢复更精确的图像。

具体来说,我们希望最大化似然函数 p ( x 1 : T ∣ x 0 ) p(x_{1:T} | x_0) p(x1:Tx0),这个似然函数可以按如下方式分解:

p ( x 1 : T ∣ x 0 ) = p ( x T ∣ x 0 ) ∏ i = 2 T p ( x i − 1 ∣ x i , x 0 ) , p(x_{1:T} | x_0) = p(x_T | x_0) \prod_{i=2}^{T} p(x_{i-1} | x_i, x_0), p(x1:Tx0)=p(xTx0)i=2Tp(xi1xi,x0),

其中 p ( x T ∣ x 0 ) = N ( x T ; m T ( x 0 ) , v T ) p(x_T | x_0) = \mathcal{N}(x_T; m_T(x_0), v_T) p(xTx0)=N(xT;mT(x0),vT) 是低质量图像的分布。然后,可以根据贝叶斯规则推导出反向转移:

p ( x i − 1 ∣ x i , x 0 ) = p ( x i ∣ x i − 1 , x 0 ) p ( x i − 1 ∣ x 0 ) p ( x i ∣ x 0 ) . p(x_{i-1} | x_i, x_0) = \frac{p(x_i | x_{i-1}, x_0) p(x_{i-1} | x_0)}{p(x_i | x_0)}. p(xi1xi,x0)=p(xix0)p(xixi1,x0)p(xi1x0).

由于所有的分布都是高斯分布,可以从命题 3.1 中计算得到,因此我们可以直接找到最优的反向状态,该状态最小化负对数似然:

x i − 1 ∗ = arg ⁡ min ⁡ x i − 1 [ − log ⁡ p ( x i − 1 ∣ x i , x 0 ) ] , x^*_{i-1} = \arg\min_{x_{i-1}} \left[ -\log p(x_{i-1} | x_i, x_0) \right], xi1=argxi1min[logp(xi1xi,x0)],

其中我们令 x i − 1 ∗ x^*_{i-1} xi1 表示从 x i x_i xi 反转过来的理想状态。

为了简化符号,我们令 θ i ′ : = ∫ i − 1 i θ t d t \theta'_i := \int_{i-1}^i \theta_t dt θi:=i1iθtdt。通过求解上述目标函数,我们得到以下结果:

命题 3.2 给定初始状态 x 0 x_0 x0,对于任意的状态 x i x_i xi(当离散时间 i > 0 i > 0 i>0 时),IR-SDE 的最优反向解 x i − 1 ∗ x^*_{i-1} xi1 给出如下:

x i − 1 ∗ = 1 − e − 2 θ ˉ i − 1 1 − e − 2 θ ˉ i e − θ i ′ ( x i − μ ) + 1 − e − 2 θ i ′ 1 − e − 2 θ ˉ i − 1 e − θ ˉ i − 1 ( x 0 − μ ) + μ . x^*_{i-1} = \frac{1 - e^{-2 \bar{\theta}_{i-1}}}{1 - e^{-2 \bar{\theta}_i}} e^{-\theta'_i} (x_i - \mu) + \frac{1 - e^{-2 \theta'_i}}{1 - e^{-2 \bar{\theta}_{i-1}}} e^{-\bar{\theta}_{i-1}} (x_0 - \mu) + \mu. xi1=1e2θˉi1e2θˉi1eθi(xiμ)+1e2θˉi11e2θieθˉi1(x0μ)+μ.

证明见附录 A。请注意,我们也可以利用这个目标推导出 DDPM1 的均值。然后,我们选择优化噪声网络 ϵ ~ ϕ ( x i , μ , i ) \tilde{\epsilon}_\phi(x_i, \mu, i) ϵ~ϕ(xi,μ,i),使得 IR-SDE 反向过程与最优轨迹一致,即:

J γ ( ϕ ) : = ∑ i = 1 T γ i E [ ∣ x i − ( d x i ) ϵ ~ ϕ ∣ reversed  x i − 1 − x i − 1 ∗ ∣ ] , J_\gamma(\phi) := \sum_{i=1}^T \gamma_i \mathbb{E} \left[ \left| x_i - (dx_i) \tilde{\epsilon}_\phi | \text{reversed } x_{i-1} - x^*_{i-1} \right| \right], Jγ(ϕ):=i=1TγiE[ xi(dxi)ϵ~ϕreversed xi1xi1 ],

其中 ( d x i ) ϵ ~ ϕ (dx_i) \tilde{\epsilon}_\phi (dxi)ϵ~ϕ 表示公式 (7) 中的反向时间 SDE,其评分由噪声网络 ϵ ~ ϕ \tilde{\epsilon}_\phi ϵ~ϕ 预测。请注意,马尔可夫过程的期望 ∫ 0 t σ s d w ^ ( s ) \int_0^t \sigma_s dw^{\hat{}}(s) 0tσsdw^(s) 为零,这意味着我们只需要考虑 (dx) 中的漂移部分。


解释

在这一部分,我们提出了一种替代的最大似然学习方法来解决图像恢复问题。与之前的基于评分匹配的方法不同,我们的方法的核心目的是通过最大化图像序列的似然函数来稳定训练,并实现更好的图像恢复。

  • 目标函数分解为每一时刻的状态概率和前一个状态的条件概率之积,反向过程的推导则依赖于贝叶斯公式。
  • 通过最大化这个目标,我们可以得到从当前图像恢复到理想状态的最优路径(最优的反向轨迹)。
  • 具体来说,通过调整反向过程,我们不仅能够稳定训练,还能够使得恢复的图像更接近真实的高质量图像。
  • 通过使用噪声网络(类似于去噪过程中的神经网络),我们可以预测反向过程的噪声,并通过训练使得生成的图像更加准确。

简而言之,这种方法不仅解决了评分匹配方法训练不稳定的问题,还通过最大似然方法稳定了训练过程,从而恢复出更高质量的图像。


在这里插入图片描述
图1 我们提出的构造概述,其中使用均值回复型 SDE (3) 来进行图像恢复。该 SDE 模型描述了从高质量图像 x ( 0 ) x(0) x(0) 到其低质量对应物 μ \mu μ 的退化过程,通过将 x ( 0 ) x(0) x(0) 扩散到低质量图像 μ + ϵ \mu + \epsilon μ+ϵ 的噪声版本。在模拟对应的反向时间 SDE 后,可以恢复出高质量的图像。

解释

介绍了一个用于图像恢复的过程。我们使用了一种叫做均值回复型随机微分方程(SDE)的数学模型来描述图像的退化过程。具体来说,这个 SDE 描述了一个高质量图像 x ( 0 ) x(0) x(0) 如何退化成一个低质量图像 μ \mu μ,其中加入了噪声项 ϵ \epsilon ϵ

在这个退化过程中,图像 x ( 0 ) x(0) x(0) 被逐渐“扩散”成带有噪声的低质量图像 μ + ϵ \mu + \epsilon μ+ϵ。然后,通过模拟这个过程的反向时间 SDE,我们可以一步步地恢复回原来的高质量图像。

简而言之,这个过程首先模拟图像退化的过程,然后反向操作,逐渐恢复出原始的高质量图像。


翻译

  1. 实验

我们在三项流行的图像修复任务上实验性地评估了我们提出的 IR-SDE 方法:图像去雨、去模糊和去噪。我们将 IR-SDE 与各自领域中现有的主流方法进行了比较。在每个子章节中,我们还报告了 CNN 基线模型的性能。CNN 基线模型以低质量图像为输入,直接输出高质量版本。它使用与我们 IR-SDE 相同的网络架构,但通过最小化输出与真实图像之间的 L1 损失来进行训练。此外,我们还提出了一个特殊的 SDE 和常微分方程(ODE)来处理高斯去噪任务。在所有任务中,我们报告了 Learned Perceptual Image Patch Similarity (LPIPS)(Zhang 等,2018b)和 Frechet inception distance (FID)(Heusel 等,2017)这两个指标,用于衡量感知差异和视觉效果。同时,也提供了 PSNRSSIM(Wang 等,2004)来衡量像素/结构相似性。此外,我们还在图像超分辨率、图像修补和去雾任务中对提出的方法进行了定性展示。实验结果表明,我们的方法能很好地推广到不同的图像修复问题,每个任务所需要做的唯一变化就是更换数据集。实现细节请参见附录 D。对于这六个图像修复任务的更多定性结果,可以在附录 E 中找到。


解释

这段话描述了实验部分,主要介绍了作者如何评估其 IR-SDE 方法在不同图像修复任务中的表现,并与其他方法进行对比。

  • 评估任务:作者选择了三个常见的图像修复任务进行测试:去雨、去模糊和去噪。他们的 IR-SDE 方法将与这些任务中的主流方法进行比较,以检验其效果。

  • CNN 基线模型:作为对比,作者使用了一个简单的 CNN 模型,输入一个低质量图像,输出一个高质量的版本。这个 CNN 与 IR-SDE 使用相同的网络结构,但通过不同的训练方法来优化。IR-SDE 方法采用了不同的策略,并且能在多个任务中取得更好的效果。

  • 去噪任务:在高斯去噪任务上,作者还提出了一个特殊的 SDE(随机微分方程)和 ODE(常微分方程)来进行处理。

  • 指标:为了衡量修复质量,作者使用了几个指标:

    • LPIPSFID:这两个指标用来衡量图像的感知质量和视觉效果,主要侧重图像在人眼中的真实感。
    • PSNRSSIM:这些是传统的图像质量评估指标,主要衡量像素层面的相似性,PSNR 越高,表示图像越接近真实,而 SSIM 则衡量结构的相似性。
  • 任务泛化:此外,作者还展示了 IR-SDE 在图像超分辨率、图像修补和去雾任务中的应用,表明该方法能够很好地适应不同的图像修复问题,只需更换数据集即可。

总体来说,IR-SDE 在多个图像修复任务中表现出了优越性,且能够在不同任务中灵活应用。


翻译

4.1. 图像去雨

我们在两个合成的雨滴数据集上评估了 IR-SDE 方法:Rain100H(Yang 等,2017)和 Rain100L(Yang 等,2017)。前者包含了 1800 对有雨和无雨的图像用于训练,100 对用于测试。后者包含了 200 对用于训练和 100 对用于测试。在这个任务中,我们报告了 Y 通道(YCbCr 空间)上的 PSNR 和 SSIM 分数,类似于现有的去雨方法(Ren 等,2019;Zamir 等,2021)。此外,我们将我们的方法与几种最先进的去雨方法进行了比较,如 JORDER(Yang 等,2019)、PReNet(Ren 等,2019)、MPRNet(Zamir 等,2021)和 MAXIM(Tu 等,2022)。需要注意的是,取得某个特定任务的最先进表现并不是本文的主要关注点。与其他扩散方法类似,我们将更多的关注放在感知分数上。

在两个雨滴数据集上的定量比较见于表 1 和表 2。所提出的 IR-SDE 在所有指标上均表现最好。特别是,IR-SDE 在感知分数(LPIPS 和 FID)上明显优于其他方法。基于这些分数以及图 2 中的视觉比较,我们得出结论,IR-SDE 明显产生了最真实和高保真的结果。此外,CNN 基线模型仅优于 JORDER。我们的方法显著提高了其性能而没有改变网络结构,这进一步说明了所提方法的优越性。


表1 在 Rain100H 测试集上,所提出的 IR-SDE 方法与其他图像去雨方法的定量比较:

方法DISTORTIONPERCEPTUAL
PSNR↑SSIM↑LPIPS↓FID↓
JORDER26.250.83490.19794.58
PRENET29.460.89900.12852.67
MPRNET30.410.89060.15861.59
MAXIM30.810.90270.13358.72
CNN-BASELINE29.120.88240.15357.55
IR-SDE31.650.90410.04718.64

表2 在 Rain100L 测试集上,所提出的 IR-SDE 方法与其他图像去雨方法的定量比较:

方法DISTORTIONPERCEPTUAL
PSNR↑SSIM↑LPIPS↓FID↓
JORDER36.610.97350.02814.66
PRENET37.480.97920.02010.98
MPRNET36.400.96530.07726.79
MAXIM38.060.97700.04819.06
CNN-BASELINE33.170.95830.06827.32
IR-SDE38.300.98050.0147.94

在这里插入图片描述
图 2. 我们的 IR-SDE 方法与其他去雨方法在 Rain100H 数据集上的视觉结果。


翻译

4.2. 图像去模糊

我们在公共的 GoPro 数据集(Nah 等,2017)上评估了 IR-SDE 的去模糊性能。该数据集包含了 2103 对训练图像和 1111 对测试图像。需要注意的是,GoPro 数据集中的模糊图像是通过将多个清晰图像进行平均合成,使用高速视频摄像机拍摄的。与通过模糊核生成的其他合成模糊图像相比,GoPro 数据集中的模糊更为真实且更复杂。

表 3 总结了图像去模糊的定量结果。为了进行比较,我们报告了四个里程碑式的去模糊方法:DeepDeblur(Nah 等,2017)、DeblurGAN(Kupyn 等,2018)、DeblurGAN-v2(Kupyn 等,2019)、DBGAN(Zhang 等,2020)和 MAXIM(Tu 等,2022)。我们的算法在 PSNR 上比 DeblurGAN-v2 高出 1.15 dB,并在感知效果上表现最佳。这表明,IR-SDE 生成的清晰图像比其他基于 GAN 的方法看起来更真实,并且与真实图像保持一致。此外,我们的方法显著提升了 CNN 基线模型的表现,且没有改变其网络结构,这进一步证明了我们方法的优越性。图 3 的视觉比较展示了我们的方法能够处理复杂的模糊情况,并产生清晰且视觉上令人满意的结果。


解释

这段话介绍了 IR-SDE 方法在 GoPro 数据集 上进行的 去模糊 实验。GoPro 数据集中的图像模糊来自于将多张清晰图像合成的过程,这比用标准模糊核生成的模糊图像更接近现实,因此处理起来更复杂。

文中提到,我们的方法 IR-SDE 比其他去模糊方法,如 DeblurGAN-v2,在 PSNR(峰值信噪比)上高出 1.15 dB,且在视觉效果(感知性能)上表现最好。这意味着 IR-SDE 恢复的图像比其他方法看起来更加真实,而且与原始清晰图像的一致性更好。

另外,尽管 IR-SDE 相较于传统的 CNN 基线模型 提升了性能,但它并没有改变网络架构,这也证明了该方法的优越性。通过图 3 中的视觉对比,我们可以看到,IR-SDE 在面对复杂模糊情况时表现得很好,恢复出的图像既清晰又令人满意。


表 3. 提出了 IR-SDE 方法与其他图像去模糊方法在 GoPro 测试集上的定量比较。

方法失真指标 (DISTORTION)感知指标 (PERCEPTUAL)
PSNR↑SSIM↑LPIPS↓FID↓
---------------------------------------------------------------------------------------
DEEPDEBLUR29.080.91350.13515.14
DEBLURGAN28.700.85800.17827.02
DEBLURGAN-V229.550.93400.11713.40
DBGAN31.180.91640.11212.65
MAXIM32.860.94030.08911.57
CNN-BASELINE28.870.84690.22523.09
IR-SDE30.700.90100.0646.32

在这里插入图片描述
图 3. 我们的 IR-SDE 方法与其他去模糊方法在 GoPro 数据集上的视觉结果比较。


翻译:

4.3. 高斯图像去噪
回想一下,SDE 中的 Wiener 过程是一个高斯过程。因此,我们引入了一个去噪 SDE——这是 IR-SDE 在(3)和(7)中的特例——通过设置干净图像为所有时间 t t t的均值 μ = x 0 \mu = x_0 μ=x0,从而可以通过较少的时间步进行去噪计算。因此,我们可以将任何有噪声的图像视为一个中间状态,并直接将其反向处理为干净图像。此外,由于干净图像上仅有高斯噪声,推导出一个去噪常微分方程(ODE)是合理的,这个方程具有与 SDE 相同的边际概率(Song et al., 2021c),但可以执行去噪操作而不会引入来自 Wiener 过程的额外噪声。该去噪 ODE 如下所示:

d x = [ h θ t ( μ − x ) − 1 2 σ t 2 ∇ x log ⁡ p t ( x ) ] d t dx = \left[ h_{\theta_t} (\mu - x) - \frac{1}{2\sigma_t^2} \nabla_x \log p_t(x) \right] dt dx=[hθt(μx)2σt21xlogpt(x)]dt
理论上,我们可以使用(16)来确定性地解决高斯去噪问题。去噪 SDE 和 ODE 之间的主要区别在于随机项(即 Wiener 过程)。在附录 B 中,我们提供了去噪 SDE/ODE 的详细推导,并展示了如何推导出一个适当的去噪步骤以提高样本效率。

为了评估图像去噪性能,我们在从 DIV2K(Agustsson & Timofte, 2017)、Flickr2K(Timofte et al., 2017)、BSD500(Arbelaez et al., 2010)和 Waterloo Exploration 数据集(Ma et al., 2016)收集的 8,294 张高质量图像上训练了我们的模型。然后,我们在 McMaster(Zhang et al., 2011)、Kodak24(Franzen, 1999)和 CBSD68(Martin et al., 2001)数据集上评估所有模型。为了表明我们的方法与最先进的技术保持一致,我们与(Zhang et al., 2017a)和(Zhang et al., 2018a)的方法进行比较,分别称为 DnCNN 和 FFDNet。

三个测试数据集的数值结果如表 4 所示。IR-SDE 具有较高的感知性能,但其保真度得分(即 PSNR 和 SSIM)低于其他基于 CNN 的方法,Denoising-SDE 也是如此。原因可能是扩散过程无法从高斯噪声中识别出来,因为没有随机项的 Denoising-ODE 在所有数据集上的 PSNR 都显著更好。视觉比较见图 4。可以看出,基于 CNN 的方法往往会产生过度平滑的图像。尽管 IR-SDE 和 Denoising-ODE 都生成逼真的结果,但 Denoising-ODE 生成的图像噪声较少。我们还将 Denoising-ODE 与近期的扩散方法 DDRM(Kawar et al., 2022)在裁剪图像上的表现进行比较,结果在所有指标上均优于 DDRM,见表 5。


解释:

这一部分介绍了基于 IR-SDE 方法的去噪技术。首先,作者指出,高斯噪声的去噪可以通过引入一个特殊的 SDE 进行处理,其中干净图像在时间 t t t上被认为是均值 μ = x 0 \mu = x_0 μ=x0。这种方法通过较少的时间步骤来去除噪声。然后,提出了一个去噪常微分方程(Denoising-ODE),它不包含随机项,能够更有效地去除噪声。作者还在多个数据集上对去噪模型进行了训练和评估,并与目前流行的去噪方法进行比较,得出了自己的方法在感知质量上有较大优势,但在传统的图像质量指标(如PSNR和SSIM)上稍逊一筹。尽管如此,IR-SDE 方法的去噪效果仍然优于 CNN 基线模型,生成的图像看起来更加真实。


表格 4. 在噪声水平 σ = 25 下,针对不同测试集的去噪结果。请注意,IR-SDE 的总步骤为 100,而 Denoising SDE/ODE 只需 22 步即可恢复干净图像。更多细节和结果请参见附录 B 和 E。
在这里插入图片描述


表格 5. 我们的方法与 DDRM(Kawar et al., 2022)在高斯图像去噪、超分辨率和人脸修复任务上的比较。我们分别使用 CBSD68、DIV2K 和 CelebA-HQ 数据集进行任务评估。请注意,DDRM 需要已知退化参数,并且这些参数可以通过奇异值分解(SVD)组合。此外,所有图像都经过中心裁剪,尺寸为 256 × 256。

解释:

这段话讲的是,表格 5 比较了我们的去噪方法与 DDRM(一个已有的去噪方法)在三个任务上的表现:高斯图像去噪、超分辨率(即提高图像分辨率)和人脸修复(即填补损坏的人脸图像)。为了进行这些比较,使用了三个数据集:CBSD68、DIV2K 和 CelebA-HQ。值得注意的是,DDRM 方法在运行时需要已知一些退化的参数,并且这些参数需要通过一种叫做“奇异值分解”(SVD)的方法来处理。除此之外,所有图像都被裁剪成大小为 256x256 的中心区域。
在这里插入图片描述


在这里插入图片描述

图 4. 我们的方法与其他去噪方法的视觉结果。IR-SDE 的总时间步数固定为 100,而 Denoising ODE 仅需要 22 步就能恢复干净图像。


在这里插入图片描述

图 5. 我们的 IR-SDE 方法与 EDSR 在 DIV2K 验证数据集上进行超分辨率的视觉效果。低质量(LQ)图像通过双三次插值上采样,使其大小与真实图像(GT)相同。

解释

图 5 展示了 IR-SDE 方法与 EDSR(一个超分辨率算法)结合,在 DIV2K 数据集上进行超分辨率任务的结果。这里的 “低质量图像(LQ)” 通过一种叫做“双三次插值”的方法被放大,目的是让它的尺寸和“真实图像(GT)”一致。这是一个常见的图像处理技巧,用来让低质量图像的尺寸和高质量图像一样,以便进行比较和测试。


翻译:

4.4. 质量实验

在本节中,我们通过在图像超分辨率、修复和去雾任务上的定性实验,进一步展示了我们提出的 IR-SDE 方法的通用性。这些实验的训练设置与前面的部分相同。对于超分辨率和修复任务,我们还将定量结果与 DDRM (Kawar et al., 2022) 进行比较,以展示我们方法的优越性。

超分辨率
我们首先在单图像超分辨率任务上进行实验,这是计算机视觉中的一个基础且具有挑战性的任务。我们在 DIV2K (Agustsson & Timofte, 2017) 数据集上训练并评估 IR-SDE。作为额外的预处理步骤,所有低分辨率图像都通过双三次插值方法被重新调整到与相应高分辨率图像相同的大小。图 5 展示了在 DIV2K 验证集上的定性结果。与 L2 训练的 EDSR (Lim et al., 2017) 模型相比,我们的 IR-SDE 能够恢复出具有丰富细节、视觉清晰且自然真实的图像。我们还在表 5 中提供了与另一种基于扩散的模型 DDRM (Kawar et al., 2022) 的定量比较。

面部修复
修复是将新内容填充到图像的缺失区域的任务。我们选择 CelebA-HQ (Karras et al., 2018) 数据集来训练和测试 IR-SDE 在该任务上的表现。在此任务中,我们设定掩膜区域为未知。修复的区域必须与其他区域协调,以使整体面部在语义上合理,并且外观自然。面部修复的视觉示例如图 7 所示。可以看到,所提出的 IR-SDE 在修复被遮挡区域时展现了强大的生成能力,同时保持了与原图的一致性。此外,与 DDRM (Kawar et al., 2022) 的定量比较也展示在表 5 中。

去雾
图像去雾通常是提升其他高层次视觉任务鲁棒性的重要前提。需要注意的是,DDRM 要求已知降解参数并且可以通过 SVD 进行分解,因此无法应用于去雾任务。相比之下,我们的方法灵活地能够处理各种任务。我们在 RESIDE (Li et al., 2018) 室内训练集(ITS)上训练 IR-SDE,并在合成目标测试集(SOTS)上进行测试。如图 8 所示,我们的 IR-SDE 成功地从低质量、低对比度的输入中恢复了无雾的室内场景。定量结果见附录 E。

解释:

这段话展示了 IR-SDE 方法在三个任务上的效果:图像超分辨率、面部修复和去雾。

  1. 超分辨率:这是通过提高低分辨率图像的细节来增强图像质量。IR-SDE 方法在 DIV2K 数据集上表现出色,能够恢复细节丰富且自然的图像。与传统的 EDSR 模型相比,IR-SDE 的效果更佳,能够还原更多细节。

  2. 面部修复:这是对人脸图像中缺失部分进行补充,保证修复后的面部与原图一致且自然。IR-SDE 能够在进行修复时,保持面部的自然性和语义合理性。

  3. 去雾:去雾任务通过去除图像中的雾霾,改善图像质量和清晰度。IR-SDE 在这个任务上表现出色,能够从低质量、模糊的图像中恢复出清晰、无雾的图像,适用于室内场景。

总的来说,IR-SDE 在这三个任务中都展示了强大的性能,相比于其他方法,尤其是在图像细节恢复和自然生成方面更为优越。


翻译:

5. 讨论与分析

在本节中,我们首先深入分析了 IR-SDE 的反向时间恢复过程,然后详细研究了两个重要组件(最大似然目标和 θ \theta θ 调度)以及方法的局限性。

5.1. 反向时间恢复过程

对于 IR-SDE,终态 x T x_T xT 通常是通过向降质的低质量图像中添加噪声获得的。为了恢复高质量图像,必须逐步去除降质和噪声。但在反向时间过程中,如何处理这两种不同的破坏呢?
为了分析这一点,我们提供了几个具体的恢复示例,如图 6 所示。需要注意的是,图 6 的第一行展示了由 Denoising-ODE 进行去噪的情况,其中噪声图像被认为是一个中间状态,唯一的目标是逐步去除高斯噪声以恢复清晰图像。而对于其他图像恢复任务,我们发现 IR-SDE 更倾向于优先处理原始降质,并且仅在最后几步才进行高斯去噪。正如图 6 中图像去雨和去模糊的示例所示,大部分降质(雨和模糊)已经在中间时间步中被去除。
此外,我们展示了 IR-SDE(使用余弦调度)在去模糊单张图像时的性能曲线,如图 9 所示。可以看出,去模糊性能(在 PSNR 和 LPIPS 上)在运行了 20 步后逐渐提升,并在最后几步收敛。

5.2. 最大似然目标

与其他直接学习噪声/得分的扩散模型相比,我们 IR-SDE 方法的一个关键改进是基于最大似然目标(公式(15))学习从 x T x_T xT x 0 x_0 x0 的最佳反向时间轨迹。我们在此展示了这一目标如何导致更稳定的训练,从而提高恢复性能,正如图 10 所示。当使用噪声匹配目标进行训练时,去雨和去噪任务中的 PSNR 会波动,并且随着时间的推移甚至会恶化。而在去模糊任务中,训练虽然仍然有效,但性能明显低于提出的最大似然目标。

5.3. 时间变化的 θ \theta θ 调度

值得注意的是,我们的 IR-SDE 有两个时间变化的参数 θ t \theta_t θt σ t \sigma_t σt,我们通过约束 θ t \theta_t θt σ t \sigma_t σt 的关系,即 σ t 2 / θ t = 2 λ 2 \sigma_t^2 / \theta_t = 2 \lambda^2 σt2/θt=2λ2,来设定它们,其中 λ \lambda λ 是应用于低质量图像的噪声水平,因此我们可以通过调整 θ \theta θ 来构建不同的噪声调度。正如图 11 所示,我们探索了三种不同的 θ \theta θ 调度方法:常数、线性和余弦(详情见附录 D)。当 θ \theta θ 为常数时,IR-SDE 简化为 Ornstein–Uhlenbeck (OU) 过程(Gillespie, 1996),这一过程广泛用于解决均值回归问题。线性/余弦调度在现有的扩散概率模型中也得到了广泛应用(Ho et al., 2020;Nichol & Dhariwal, 2021)。我们为 θ t \theta_t θt 使用了它们的翻转版本,使得扩散系数 σ t \sigma_t σt 平滑地变化至最大值,当 t → ∞ t \to \infty t 时。观察到所有调度方法在去雨任务中都表现良好,其中余弦调度的表现明显优于其他方法。

5.4. 局限性与未来工作

我们已经展示了 IR-SDE 方法在各种图像恢复任务上的有效性。然而,也需要承认一个潜在的局限性:公式(6)中指数项导致最后几步的方差变化过于平滑(见图 12)。在这一区域,相邻状态( x i , x i − 1 x_i, x_{i-1} xi,xi1)的外观非常相似,这使得学习变得困难,特别是当使用最大似然损失(优化状态间的差异)时。在未来的工作中,我们将探索替代的 θ \theta θ 调度方法,以缓解这一问题。
此外,值得注意的是,我们可以通过使用 Tweedie 公式(参见 Kim & Ye, 2021,表 1 和 Kim et al., 2022)来推广 SDE 的选择,从而推广条件得分。例如,如果我们选择 SDE 为几何布朗运动,则公式(8)中的得分对应于指数分布的得分。


解释:

  1. 反向时间恢复过程:IR-SDE 的恢复过程涉及从降质的低质量图像中恢复出高质量图像。最开始图像含有噪声和降质,我们通过反向时间步骤逐渐去除这些破坏。在去噪任务中,IR-SDE 主要先去除图像中的降质(如雨水和模糊),最后几步才进行噪声去除。通过图 6 和图 9 的例子,展示了这个过程如何在去模糊任务中起作用。

  2. 最大似然目标:IR-SDE 在训练时使用了最大似然目标,这让训练更加稳定,并提高了恢复性能。与仅匹配噪声的其他方法相比,IR-SDE 在去雨和去噪任务中显示出更好的性能。

  3. 时间变化的 θ \theta θ 调度:IR-SDE 有两个时间变化的参数, θ t \theta_t θt σ t \sigma_t σt,它们影响噪声的变化。通过调整这些参数的调度(如常数、线性和余弦调度),我们可以改变噪声的变化方式。在去雨任务中,所有这些调度都表现良好,余弦调度则表现最佳。

  4. 局限性与未来工作:尽管 IR-SDE 展示了强大的性能,但最后几步的恢复过程可能出现问题,因为相邻的图像状态太相似,导致学习变得困难。未来的工作将通过调整调度方式来解决这一问题。同时,还可以通过使用不同的 SDE 选择来推广该方法,进一步提高其适应性。


6. Related Work

图像修复是计算机视觉中的一个活跃研究领域(Zhang & Zuo, 2017;Zhang et al., 2017b;Wang et al., 2022;Xiao et al., 2022)。最常见的方法是训练某种深度学习模型,以监督方式解决图像修复任务(Zamir et al., 2021)。已经提出了各种基于卷积神经网络(CNN)的架构(Zamir et al., 2021;Chen et al., 2022),最近也有大量的研究探索了使用变压器(Transformers)(Liang et al., 2021;Zamir et al., 2022;Luo et al., 2022b)。这些方法都涉及到训练一个神经网络,从给定的低质量图像直接预测高质量图像。相比之下,我们提出的 IR-SDE 方法是通过模拟反向时间的 SDE(7)逐步恢复给定的低质量图像。尽管这样会增加计算成本,但它也能够更精确地恢复真实的图像。最近,Refusion(Luo et al., 2023)在 IR-SDE 的基础上引入了基于 U-Net 的潜在框架,以加速推理过程。

与 IR-SDE 最相似的是 Welker 等人(2022b)和 Richter 等人(2022)的工作,他们在语音增强和语音去混响的语音处理任务中应用了均值回归 SDE。他们使用的是类似于(3)的均值回归 SDE,但其使用不同的 σ t \sigma_t σt 和常数的 θ \theta θ,即标准的 OU 过程。此外,他们没有设置静态方差条件。在 Welker 等人(2022a)的另一篇并行工作中,他们将这一思路扩展到 JPEG 压缩伪影去除问题,并引入了带线性 θ \theta θ 调度的版本。正如在第 5.3 节所展示的,这些方法在性能上不如我们使用的余弦 θ \theta θ 调度方法。此外,Welker 等人(2022b)、Richter 等人(2022)、Welker 等人(2022a)都使用了标准的分数匹配目标,而我们提出了基于最大似然的损失函数,这使得训练更加稳定,并提高了修复性能。最后,我们通过将该方法应用于六个不同的图像修复任务,展示了我们方法的广泛适用性和竞争力的修复性能。

7. Conclusion

我们提出了一种基于均值回归 SDE 的方法,适用于多种图像修复任务。重要的是,我们的 SDE 具有闭式解,这使得我们能够计算真实的时间依赖的分数函数,并训练一个神经网络来估计它。此外,我们提出了一个基于最大似然的损失目标,这大大稳定了神经网络的训练,并持续提高了修复性能。在六个不同的图像修复任务中的实验结果证明了我们提出的方法具有广泛的适用性,并在修复性能上具备很强的竞争力。未来的方向包括探索优化 θ \theta θ 调度和采样过程的技术,以减少测试时的计算成本。

Acknowledgements

这项研究得到了 Wallenberg AI、自动系统和软件项目(WASP)的资助,该项目由 Knut 和 Alice Wallenberg 基金会资助;由瑞典研究委员会资助的“深度概率回归——新模型和学习算法”(合同编号:2021-04301)项目;以及 Kjell 和 M ̈arta Beijer 基金会的资助支持。计算工作得到了由 Knut 和 Alice Wallenberg 基金会提供的 Berzelius 资源,支持来自国家超级计算中心。我们还感谢 Daniel Gedon 提供的宝贵反馈。


解释:

这段话讲述了与 IR-SDE 方法相关的研究进展和与其他方法的比较:

  1. 图像修复的传统方法:过去,很多图像修复的方法依赖于深度学习模型,尤其是卷积神经网络(CNN)和变压器(Transformers)。这些方法通过直接从低质量图像生成高质量图像来解决问题。

  2. IR-SDE 的独特之处:IR-SDE 方法通过模拟一个特殊的数学过程(反向时间的 SDE)逐步恢复低质量图像,虽然这样会消耗更多计算资源,但能够实现更精确的修复。

  3. 与其他方法的比较:与 IR-SDE 方法最相似的工作是 Welker 和 Richter 等人的研究,他们使用了类似的数学模型来处理语音修复问题。不同的是,IR-SDE 使用了更加精细的调度方法(余弦调度),并且引入了最大似然的训练目标,使得训练更稳定,修复效果更好。

  4. 未来工作方向:该方法未来还可以在多个方向进行改进,特别是如何优化调度和减少计算开销。

总结:这项研究展示了 IR-SDE 在图像修复领域的强大能力,并且通过与其他现有方法的对比,证明了其在性能和修复质量方面的优势。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com