论文链接:https://arxiv.org/pdf/2402.17525
github链接:https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods
亮点直击
这篇综述旨在系统地分类和批判性地评估基于扩散模型的图像编辑领域的大量研究。
目标是提供一个综合性的资源,不仅能够综合当前的研究成果,还能指导这一快速发展的领域中的未来研究方向。
总结速览
解决的问题:
-
如何利用去噪扩散模型进行高质量的图像生成和编辑。
-
系统地分类和评估扩散模型在图像编辑中的应用。
提出的方案:
-
提供详尽的综述,涵盖扩散模型在图像编辑中的理论和实践。
-
提出系统的基准EditEval及创新指标LMM Score,用于评估文本引导的图像编辑算法。
应用的技术:
-
去噪扩散模型,用于逆转噪声过程生成高质量样本。
-
多模态条件方法和传统上下文驱动方法,应用于图像修复和扩展。
达到的效果:
-
为研究人员提供全面资源,系统分类研究成果。
-
指导未来研究方向,识别领域中的局限性和潜在创新机会。
图像编辑的分类
除了扩散模型在图像生成、修复和增强方面取得的显著进展外,它们在图像编辑中也取得了显著突破,相较于之前占主导地位的GANs,提供了更好的可控性。与专注于从头创建新图像的图像生成以及旨在修复和提高退化图像质量的图像修复和增强不同,图像编辑涉及对现有图像在外观、结构或内容方面的修改,包括添加对象、更换背景和改变纹理等任务。
在这篇综述中,根据学习策略将图像编辑论文分为三大类:基于训练的方法、测试时微调的方法以及无需训练和微调的方法,分别在下文中详细阐述。此外,探讨了这些方法用于控制编辑过程的10种输入条件,包括文本、mask、参考(Ref.)图像、类别、布局、姿势、草图、分割(Seg.)图、音频和拖动点。
此外,调查了这些方法可以实现的12种最常见的编辑类型,并将其组织为以下定义的三个广泛类别:
-
语义编辑:此类别包括对图像内容和叙述的更改,影响所描绘场景的故事、背景或主题元素。此类别中的任务包括对象添加(Obj. Add.)、对象移除(Obj. Remo.)、对象替换(Obj. Repl.)、背景更改(Bg. Chg.)和情感表达修改(Emo. Expr. Mod.)。
-
风格编辑:此类别侧重于增强或改变图像的视觉风格和美学元素,而不改变其叙述内容。此类别中的任务包括颜色更改(Color Chg.)、纹理更改(Text. Chg.)和整体风格更改(Style Chg.),涵盖艺术风格和现实风格。
-
结构编辑:此类别涉及图像中元素的空间排列、定位、视点和特征的变化,强调场景中对象的组织和呈现。此类别中的任务包括对象移动(Obj. Move.)、对象大小和形状更改(Obj. Size. Chg.)、对象动作和姿势更改(Obj. Act. Chg.)以及透视/视点更改(Persp./View. Chg.)。
下表1全面总结了所调查论文的多视角分类,便于快速查找。
基于训练的方法
在基于扩散模型的图像编辑领域,基于训练的方法已获得显著关注。这些方法不仅因其在稳定训练扩散模型和有效建模数据分布方面的表现而引人注目,还因其在各种编辑任务中的可靠性能而受到重视。为了深入研究这些方法,根据其应用范围、训练所需条件和监督类型将其分为四大类,如下图2所示。此外,在每个主要类别中,根据核心编辑方法将其细分为不同类型。这种分类展示了这些方法的范围,从针对特定领域的应用到更广泛的开放世界用途。
弱监督下的特定领域编辑
在过去几年中,生成对抗网络(GANs)因其生成高质量图像的能力而被广泛应用于图像编辑。然而,扩散模型凭借其先进的图像生成能力,成为该领域的新焦点。扩散模型的一个挑战是在大数据集上训练时需要大量计算资源。为了解决这个问题,早期研究通过在较小的专用数据集上进行弱监督训练这些模型。这些数据集高度集中于特定领域,如用于人脸处理的CelebA和FFHQ,用于动物面部编辑和转换的AFHQ,用于对象修改的LSUN,以及用于风格转移的WikiArt。为了深入理解这些方法,根据其弱监督类型进行组织。
CLIP指导。受使用CLIP 进行文本引导图像编辑的GAN方法[240],[241]启发,多个研究将CLIP整合到扩散模型中。一个关键例子是DiffusionCLIP,它允许在训练和新领域中使用CLIP进行图像操作。具体来说,它首先使用DDIM反演将真实图像转换为潜在噪声,然后在反向扩散过程中微调预训练的扩散模型,通过源文本和目标文本提示之间的CLIP损失来调整图像属性。Asyrp 则专注于内部的语义潜在空间,称为h空间,在其中定义了由小型神经网络参数化的附加隐函数。然后,它在保持扩散模型冻结的情况下,在CLIP损失的指导下训练网络。DiffusionCLIP和Asyrp的简化流程的视觉比较如下图3所示。为了应对DiffusionCLIP中多步优化耗时的问题,EffDiff 引入了一种通过单步训练和高效处理的更快方法。
除了主要关注人脸编辑的方法之外,DiffStyler 和StyleDiffusion 针对艺术风格转移。DiffStyler使用CLIP指令损失来对齐目标文本描述和生成图像,同时使用CLIP美学损失来增强视觉质量。另一方面,StyleDiffusion引入了一种基于CLIP的风格解耦损失,以改善风格与内容的协调。
循环正则化。由于扩散模型能够进行域转换,因此在这些模型中也探索了像CycleGAN 这样的方法中常用的循环框架。例如,UNIT-DDPM在扩散模型中定义了一个双域马尔可夫链,使用循环一致性来正则化无配对图像到图像翻译的训练。类似地,CycleNet采用了以预训练的Stable Diffusion 为文本条件的ControlNet 作为骨干网络。在整个图像翻译循环中,它也使用了一致性正则化,这包括从源域到目标域的正向翻译以及反向方向的翻译。
投影和插值。在GANs中常用的一种技术是将两个真实图像投影到GAN的潜在空间中,然后在它们之间进行插值以实现平滑的图像操作,这一技术也被一些扩散模型用于图像编辑。例如,Diffusion Autoencoders引入了一个语义编码器,将输入图像映射到一个具有语义意义的embedding中,然后作为扩散模型重建的条件。在训练语义编码器和条件扩散模型后,任何图像都可以投影到这个语义空间中进行插值。然而,HDAE指出这种方法往往会丢失丰富的低级和中级特征。它通过增强框架以分层利用语义编码器和基于扩散的解码器的粗到细特征,旨在实现更全面的表示。
分类器引导。一些研究通过引入预训练的分类器进行引导来增强图像编辑性能。例如,EGSDE使用能量函数来指导采样,以实现逼真的无配对图像到图像翻译。该函数由一个时间相关的领域特定分类器和一个低通滤波器分别指定的两个对数势函数组成。对于细粒度图像编辑,Pixel-Guided Diffusion训练一个像素级分类器来估计分割图并用其梯度引导采样。
通过自我监督进行参考和属性指导
这类工作从单幅图像中提取属性或其他信息,以自监督的方式为基于扩散的图像编辑模型训练提供条件。它们可以分为两类:参考基础图像合成和属性控制图像编辑。
参考基础图像合成。为了学习如何合成图像,PbE 通过使用图像中对象边界框内的内容作为参考图像,边界框外的内容作为源图像,以自监督的方式进行训练。为了防止简单的复制粘贴解决方案,它对参考图像应用强增强,基于边界框创建任意形状的mask,并使用 CLIP 图像编码器压缩参考图像的信息,作为扩散模型的条件。在此基础上,RIC 将mask区域的草图作为控制条件进行训练,允许用户通过草图微调参考图像合成的效果。ObjectStitch 设计了一个内容适配器,以更好地保留参考图像的关键身份信息。同时,PhD 在冻结的预训练扩散模型上训练了一个修复和和谐模块,以有效引导mask区域的修复。为了保留参考图像的低级细节以进行修复,DreamInpainter 利用 U-Net 的下采样网络来提取其特征。在训练过程中,它向整个图像添加噪声,要求扩散模型在详细文本描述的指导下学习如何恢复清晰图像。此外,Anydoor 使用来自视频帧的图像对作为训练样本,以提升图像合成质量,并引入模块来捕捉身份特征、保留纹理和学习外观变化。
属性控制图像编辑。这类论文通常涉及增强预训练的扩散模型,并以特定图像特征作为控制条件来学习生成相应的图像。这种方法允许通过改变这些特定的控制条件进行图像编辑。经过年龄-文本-面部对的训练后,FADING 通过空文本反转和注意力控制进行年龄操控来编辑面部图像。PAIR Diffusion 将图像视为对象的集合,学习调节每个对象的属性,特别是结构和外观。SmartBrush 使用不同粒度的mask作为控制条件,使扩散模型能够根据文本和mask的形状修复mask区域。为了更好地保留与编辑文本无关的图像信息,IIR-Net 在所需区域执行颜色和纹理擦除。擦除后的图像被用作扩散模型的控制条件之一。
通过全面监督进行教学编辑
使用指令(例如,“去掉帽子”)来驱动图像编辑过程,而不是使用编辑后图像的描述(例如,“一只戴着帽子微笑的小狗”),似乎更自然、人性化,并且更符合用户的需求。InstructPix2Pix 是第一个学习根据人类指令编辑图像的研究。后续的研究在模型架构、数据集质量、多模态等方面进行了改进。因此,首先描述 InstructPix2Pix,然后根据其最显著的贡献对后续工作进行分类和展示。相应地,这些基于指令的方法的通用框架如下图 4 所示。
InstructPix2Pix 框架。使扩散模型能够根据指令编辑图像的主要挑战之一是构建指令-图像配对数据集。InstructPix2Pix 通过两个步骤生成这些图像对。首先,给定一个图像标题(例如,“骑马女孩的照片”),它使用微调的 GPT-3 生成一个指令(例如,“让她骑龙”)和一个编辑后的图像标题(例如,“骑龙女孩的照片”)。其次,它使用 Stable Diffusion 和 Prompt-to-Prompt 算法生成编辑后的图像,收集了超过 450,000 对训练图像。然后,它在完全监督的情况下训练一个指令性图像编辑扩散模型,考虑输入图像和指令的条件。
模型架构增强。MoEController 引入了一种专家混合(MOE)架构,其中包括三个专门的专家用于细粒度局部翻译、全局风格转换和复杂局部编辑任务。另一方面,FoI 利用 InstructPix2Pix 的隐式基础能力来识别和聚焦特定的编辑区域。它还采用跨条件注意力调制,确保每个指令针对其对应的区域,减少多个指令之间的干扰。
数据质量增强。LOFIE 通过利用分割、链式思维提示和视觉问答(VQA)的最新进展来提高训练数据集的质量。MagicBrush 从亚马逊机械土耳其(AMT)雇佣众包工人,使用 DALL-E 2 手动执行连续编辑。它包括 5,313 次编辑会话和 10,388 次编辑回合,从而建立了一个全面的指令性图像编辑基准。InstructDiffusion 是一个统一框架,将各种视觉任务视为人类直观的图像操作过程,即关键点检测、分割、图像增强和图像编辑。对于图像编辑,它不仅利用现有数据集,还通过使用对象移除和替换工具生成的额外数据进行增强,并从互联网上收集真实的 Photoshop 请求的图像编辑对。Emu Edit 也在图像编辑和识别数据上进行训练,利用包含 16 个不同任务和 1000 万个示例的数据集。该数据集使用 Llama 2 和上下文学习创建,以生成多样化和创造性的编辑指令。在训练期间,模型与其权重一起学习任务embedding,从而能够通过少量示例高效适应新任务。
DialogPaint 旨在在多轮对话过程中提取用户的编辑意图并相应地编辑图像。它在 GPT-3 上使用自我指令技术创建多轮对话数据集,并结合四个图像编辑模型生成指令性图像编辑数据集。此外,作者微调 Blender 对话模型,以根据对话数据生成相应的编辑指令,然后驱动训练的指令编辑模型进行图像编辑。
Inst-Inpaint 允许用户通过文本命令指定要从图像中移除的对象,而无需二值化mask。它基于图像和场景图数据集 GQA 构建了一个名为 GQAInpaint 的数据集。首先从场景图中选择对象及其对应的关系,然后使用 Detectron2 和 Detic 提取这些对象的分割mask。之后,使用 CRFill 生成修复后的目标图像。编辑指令通过固定模板生成。构建数据集后,Inst-Inpaint 被训练以执行指令性图像修复。
人类反馈增强学习。为了提高编辑图像与人类指令之间的对齐度,HIVE 在指令性图像编辑中引入了来自人类反馈的强化学习 (RLHF)。在获得基础模型后,按照 [156] 的方法进行,接着在一个人类排序数据集上训练奖励模型。奖励模型的估计被整合到训练过程中,以微调扩散模型,使其与人类反馈对齐。
视觉指令。ImageBrush 被提出用于从一对展示所需操作的转换图像中学习视觉指令,并将此指令应用于编辑新图像。该方法将示例图像、源图像和一个空白图像连接成一个网格,使用扩散模型基于示例图像提供的上下文信息迭代去噪空白图像。此外,提出了一种视觉提示编码器,用于从视觉指令中提取特征以增强扩散过程。
利用多模态大规模模型。InstructAny2Pix 使用户能够通过整合音频、图像和文本的指令来编辑图像。它使用 ImageBind,一个多模态编码器,将多样化的输入转换为统一的潜在空间表示。Vicuna-7b,一个大型语言模型 (LLM),对多模态输入序列进行编码,以预测两个特殊tokens,作为条件将多模态输入与扩散模型的编辑结果对齐。
MGIE将图像和指令与多个 [IMG] tokens一起输入到多模态大语言模型 (MLLM) LLaVA [259] 中。然后将倒数第二层中 [IMG] 的隐藏状态投射到 Stable Diffusion 的 UNet 的交叉注意力层中。在训练过程中,LLaVA 和 Stable Diffusion 的权重被联合优化。
同样地,SmartEdit 使用 LLaVA 并另外引入了一个双向交互模块 (BIM) 以在复杂场景中进行图像编辑。它首先使用 QFormer 将 MLLM 的隐藏状态与 CLIP 文本编码器对齐,然后通过 BIM 促进图像特征与 QFormer 输出之间的融合。此外,它利用与感知相关的数据,如分割数据,以加强模型对空间和概念属性的理解。此外,它在复杂理解和推理场景中结合合成编辑数据,以激活 MLLM 的推理能力。
弱监督的伪目标检索
由于获得准确代表真实情况的编辑图像具有挑战性,这一类别的方法旨在检索伪目标图像或直接使用CLIP分数作为优化模型参数的目标。iEdit通过弱监督训练扩散模型,利用CLIP检索和编辑与编辑文本最相似的数据集图像,作为编辑后的伪目标图像。此外,它在图像编辑过程中结合了CLIPSeg的mask,以实现局部保留。为了有效解决基于区域的图像编辑问题,TDIELR首先使用DINO处理输入图像,以生成注意力图和用于锚点初始化的特征。它学习一个区域生成网络(RGN)来选择最合适的区域提议。选择的区域和文本描述随后被输入到一个预训练的文本到图像模型中进行编辑。TDIELR使用CLIP计算分数,评估文本描述与编辑结果之间的相似性,为RGN提供训练信号。此外,ChatFace也利用CLIP分数作为学习如何在真实面部图像上进行编辑的指标。
测试时间微调方法
在图像生成和编辑中,测试时微调是实现精确性和控制的重要步骤。本节探讨了增强图像编辑能力的各种微调策略(下图5)。如下图6所示,这些方法从微调整个去噪模型到专注于特定层或embedding。研究了微调整个模型、针对特定参数以及优化基于文本的embedding的方法。此外,还讨论了超网络的集成和直接图像表示优化。这些方法共同展示了微调技术在图像编辑中的复杂性和有效性日益提高,能够满足各种编辑需求和用户意图。
去噪模型微调
去噪模型是图像生成和编辑中的核心组件。直接微调去噪模型是一种简单而有效的方法。因此,许多编辑方法都基于这种微调过程。其中一些方法涉及微调整个去噪模型,而另一些则专注于微调模型中的特定层。
微调整个去噪模型。 微调整个去噪模型使模型能够更好地学习图像的特定特征,并更准确地解释文本提示,从而生成更符合用户意图的编辑图像。UniTune通过在微调阶段对单一基准图像进行微调,鼓励模型生成与基准图像相似的图像。在采样阶段,使用一种修改后的采样过程来平衡对基准图像的忠实性和对编辑提示的对齐。这包括从基准图像的一个噪声版本开始采样,并在采样过程中应用无分类器指导。Custom-Edit利用一小组参考图像来定制扩散模型,增强编辑图像与参考图像的相似性,同时保持与源图像的相似性。
去噪模型的部分参数微调。 一些方法专注于微调去噪模型的特定部分,例如自注意力层、交叉注意力层、编码器或解码器。这种微调更为精确,能够在很大程度上保留预训练模型的能力并在其基础上进行构建。KV Inversion通过学习键(K)和值(V),设计了一种增强版的自注意力,称为内容保持自注意力(CP-attn)。这有效地解决了真实图像的动作编辑问题,同时保持了原始图像的内容和结构。它为图像编辑提供了一种高效且灵活的解决方案,无需对模型进行微调或在大规模数据集上进行训练。
Embedding 微调
许多微调方法选择针对文本或空文本embedding进行优化,以便更好地将embedding与生成过程集成,从而实现更好的编辑效果。
空文本embedding微调。 空文本embedding微调的目标是解决DDIM反演(DDIM Inversion)中的重建失败问题,从而提高与原始图像的一致性。在Null-Text Inversion中,首先对原始图像应用DDIM反演以获得反演轨迹。然后,在采样过程中,微调空文本embedding以减少采样轨迹与反演轨迹之间的距离,以便采样过程可以重建原始图像。这种方法的优点在于既不改变U-Net权重,也不改变文本embedding,因此可以在不改变用户设定的目标提示的情况下提高重建性能。同样,DPL通过泄漏修正损失动态更新文本提示中的名词,以解决交叉注意力泄漏问题。空文本embedding被微调以确保高质量的交叉注意力图和准确的图像重建。
文本embedding微调。 微调从输入文本中派生的embedding可以增强图像编辑,使编辑后的图像更符合条件特征。DiffusionDisentanglement引入了一种简单轻量的图像编辑算法,通过优化两个文本embedding的混合权重来实现风格匹配和内容保留。这个过程涉及优化大约50个参数,优化后的权重在不同图像上具有良好的泛化性。Prompt Tuning Inversion设计了一种准确且快速的基于文本的图像编辑反演技术,包括重建阶段和编辑阶段。在重建阶段,它将输入图像的信息编码到可学习的文本embedding中。在编辑阶段,通过线性插值计算新的文本embedding,将目标embedding与优化后的embedding结合,以实现有效编辑,同时保持高保真度。
超网络指导
超越传统生成框架,一些方法引入自定义网络以更好地与特定编辑意图对齐。StyleDiffusion 引入了一个映射网络,将输入图像的特征映射到与文本提示embedding空间对齐的embedding空间,有效地生成提示embedding。交叉注意力层用于将文本提示embedding与图像特征表示结合。这些层通过计算键、值和查询的注意力图实现文本与图像的交互。InST 在其文本反演部分集成了多层交叉注意力机制来处理图像embedding。学习到的关键信息被转换为文本embedding,这可以被视为代表艺术作品独特风格的“新词”,有效表达其独特风格。
潜变量优化
图像潜在变量的直接优化也是微调过程中采用的一种技术。这种方法通过引入某些损失函数关系和一些中间层的特征,直接优化噪声潜在变量,而不是优化生成器的参数或embedding的条件参数。利用预训练的扩散模型,大多数方法无需配对训练数据即可实现图像翻译。
人类引导的潜在变量优化。这种方法允许用户参与图像编辑过程,引导图像生成。以 DragGAN 为代表,这种交互式编辑过程使用户能够在图像中指定并移动特定点到新位置,同时保持图像的其他部分不变。DragGAN 通过优化 GAN 的潜在空间实现此编辑。随后,基于扩散模型的发展,如 DragonDiffusion,构建能量函数在扩散模型的中间特征中进行引导编辑。这使得图像编辑可以直接通过图像特征进行引导,而无需文本描述。DragDiffusion 则专注于在特定时间步优化扩散潜在表示,而不是跨多个时间步。这种设计基于观察到 U-Net 在特定时间步的特征图提供了充足的语义和几何信息,以促进拖放编辑。
利用网络层和输入优化潜在变量。一些优化方法利用从输入条件中派生的embedding或网络特征来构建损失函数,从而实现潜在变量的直接优化。DDS 方法利用两个图像-文本对:一个由源图像及其描述文本组成,另一个是目标图像及其对应的描述文本。DDS 通过比较这两个图像-文本对之间的差异来计算损失。DiffuseIT 的损失函数还结合了 CLIP 模型的文本和图像编码器,以计算目标文本与源图像之间的相似性。CDS 将对比学习损失函数集成到 DDS 框架中,利用 LDM 自注意力层的空间丰富特征,通过对比损失计算引导图像编辑。
混合微调
一些工作将上述各种微调方法结合起来,这些方法可以是顺序的,即按阶段进行微调,或者作为单一集成工作流程的一部分同时进行。这种复合微调方法可以实现有针对性和有效的图像编辑。
文本embedding与去噪模型微调。Imagic 分阶段实现其目标,首先将目标文本转换为文本embedding,然后通过最小化embedding与图像之间的差异来优化,以重建输入图像。同时,扩散模型也被微调以更好地重建图像。通过在优化后的文本embedding和目标文本之间进行线性插值找到一个中点,结合两者的特征。然后,微调后的扩散模型使用该embedding生成最终编辑的图像。LayerDiffusion 优化文本embedding以匹配输入图像的背景,并采用分层扩散策略来微调模型,增强其保持主体与背景一致性的能力。Forgedit 关注快速图像重建和寻找合适的文本embedding进行编辑,利用扩散模型的编码器和解码器分别学习图像布局和纹理细节。
文本编码器与去噪模型微调。SINE 首先微调文本编码器和去噪模型,以更好地理解单个图像的内容和几何结构。它引入了一种基于补丁的微调策略,使模型能够生成任意分辨率的图像,而不仅仅是预训练模型的固定分辨率。通过这种微调和补丁训练,SINE 能够处理单图像编辑任务,包括但不限于风格迁移、内容添加和对象操作。
免费训练和微调方法
在图像编辑领域,无需训练和微调的方法基于快速和低成本的前提,因为在整个编辑过程中,它们不需要对数据集进行任何形式的训练,也不需要对源图像进行微调。本节根据它们修改的内容将其分为五类,如下图 7 和下图 8 所示。这些方法巧妙地利用了扩散模型中的内在原理来实现其编辑目标。
输入文本细化
在图像编辑领域,输入文本的优化标志着文本到图像转换机制的显著进步。这种方法强调增强文本embedding和简化用户输入,力求确保图像根据给定文本进行准确且符合语境的修改。它实现了概念上的修改和直观的用户指令,消除了对复杂模型修改的需求。
输入文本embedding的增强 这些方法集中于优化文本embedding以修改文本到图像的转换。PRedItOR 通过利用扩散先验模型在 CLIP 图像embedding空间中进行概念编辑,从而增强输入文本embedding,允许更细致和语境感知的图像编辑。ReDiffuser 通过再生学习生成丰富的提示词,然后将其融合以指导编辑过程,确保在保持源图像结构的同时增强所需特征。此外,Captioning and Injection 通过使用诸如 BLIP 的字幕模型和提示注入技术 来增强输入文本embedding,引入了一种用户友好的图像编辑方法。该方法允许用户提供最少的文本输入,例如一个名词,然后自动生成或优化详细的提示词,有效地指导编辑过程,从而实现更准确且符合语境的图像编辑。
基于指令的文本指导 这一类别通过用户指令实现对图像编辑过程的细粒度控制。它代表了一个显著的进步,使用户能够以较少的技术专长来引导编辑过程。InstructEdit引入了一个框架,包括语言处理器、分割模型(如 SAM )和图像编辑模型。语言处理器将用户指令解释为分割提示和字幕,然后用于创建蒙版并指导图像编辑过程。这种方法展示了基于指令的文本指导在实现详细和精确图像编辑方面的能力。
反演/采样修改
训练和微调自由方法中,常见的技术是修改反演和采样公式。反演过程用于将真实图像反转到一个噪声潜在空间,然后通过采样过程,根据目标提示生成编辑后的结果。其中,DDIM反演是最常用的基线方法,尽管它经常导致源图像重建失败。直接反演开创了一种通过将源提示更改为目标提示来编辑真实图像的范式,展示了其处理多样化任务的能力。然而,它仍然面临重建失败的问题。因此,一些方法通过修改反演和采样公式来提高重建能力。
重建信息记忆。 DDPM反演、SDE-Drag、LEDITS++、FEC和EMILIE都属于重建信息记忆的范畴;它们在反演阶段保存信息,并在采样阶段使用,以确保重建的效果。DDPM反演通过在反演阶段保存所有噪声潜在空间,探索DDPM的潜在噪声空间,从而实现用户友好的图像编辑,同时确保重建性能。SDE-Drag引入随机微分方程作为一个统一和改进的编辑框架,展示了其在拖动条件编辑中的优越性。LEDITS++解决了DDIM反演中的低效问题,提出了一种DPM-Solver反演方法。FEC专注于一致性增强,提供了三种在反演过程中保存信息以提高重建一致性的技术。EMILIE开创了迭代多粒度编辑,提供了迭代能力和多粒度控制以实现所需的更改。这些方法通过记忆某些反演信息来确保重建性能,并在此基础上增强了编辑操作的多样性。
利用采样中的空文本。 负反演、ProxEdit和Null-Text Guidance都探索了空文本(也称为负提示)信息对图像编辑的影响。负反演在采样过程中使用源提示作为负提示,实现了与基于优化的方法相当的重建质量。ProxEdit解决了在较大分类器自由引导尺度下DDIM反演重建的退化问题,并通过邻近引导和相互自注意力控制提出了一种高效的解决方案。同时,Null-Text Guidance利用干扰方案将生成的图像转化为卡通图像,而无需训练。尽管这些方法对空文本的使用不同,但它们都从不同的角度探索了空文本或负提示设置在图像编辑中的作用。
单步多噪声预测。 EDICT和AIDI提出在单步采样中预测多个噪声,以解决重建失败的问题。EDICT从仿射耦合层中汲取灵感,实现了真实图像的数学精确反演。它保持耦合噪声向量,能够在不假设局部线性化的情况下实现精确的图像重建,优于DDIM反演。另一方面,AIDI引入了加速迭代扩散反演,并通过在单步反演中预测多个噪声来提高重建精度。通过使用混合引导技术,AIDI在各种图像编辑任务中展示了有效的结果,分类器自由引导尺度低至1到3。
注意力调节
注意力修改方法增强了注意力层中的操作,这是无训练图像编辑中最常见和直接的方法。在Stable Diffusion的U-Net中,有许多交叉注意力和自注意力层,这些层中的注意力图和特征图包含大量语义信息。注意力修改的共同特征在于识别注意力层中的内在原理,然后通过修改注意力操作来利用这些原理。Prompt-to-Prompt (P2P) 是注意力修改的开创性研究。
注意力图替换。P2P引入了一个直观的基于文本输入的prompt-to-prompt编辑框架,通过识别交叉注意力层在控制图像布局和提示词之间的空间关系中的关键作用。如上图8所示,给定重建和编辑路径,P2P将编辑路径的注意力图替换为重建路径的对应注意力图,从而使编辑结果与源图像保持一致。与P2P不同,Pix2Pix-Zero不需要用户定义的文本提示进行真实图像编辑。它在文本embedding空间中自主发现编辑方向,保留原始内容结构。此外,它在U-Net中引入交叉注意力引导以保留输入图像特征。
注意力特征替换。MasaCtrl和PnP都强调替换注意力特征以保持一致性。MasaCtrl将自注意力转换为互相自注意力,替换自注意力层中的Key和Value特征以进行动作编辑。一个mask引导的互相自注意力策略通过解决前景和背景的混淆进一步增强一致性。PnP通过空间特征操作和自注意力实现对生成结构的细粒度控制,直接注入引导图像特征。虽然两者都对特征替换有所贡献,但MasaCtrl专注于自注意力层中的Key和Value,而PnP则强调自注意力层中的Query和Key。
局部注意力图修改。TF-ICON框架和Object-Shape Variation共享局部注意力图修改的利用。TF-ICON专注于跨域图像引导的合成,将用户提供的对象无缝集成到视觉上下文中,无需额外训练。它引入了用于准确图像反演和源图像自注意力变形映射的特殊提示。同时,Object-Shape Variation旨在生成描绘特定对象形状变化的集合,使用self-attention层提出了一种本地化技术。
注意力分数引导。条件分数引导和EBMs都致力于使用不同的注意力分数引导。条件分数引导专注于图像到图像的转换,通过引入条件分数函数来实现。该函数考虑了源图像和文本提示,以选择性地编辑区域,同时保留其他区域。混合技术增强了未编辑和已编辑区域的融合,确保高保真度转换。EBMs解决了与目标提示的语义不对齐问题。它引入了一个基于能量的框架用于自适应上下文控制,建模上下文向量的后验以增强语义对齐。
Mask 指导
mask 指导在基于扩散的图像编辑中是一种用于增强图像编辑的技术。它包括通过选择性处理提高去噪效率的技术、用于目标图像编辑的精确mask自动生成技术,以及mask引导的区域聚焦,确保局部修改准确对齐特定感兴趣区域。这些方法利用mask来引导和优化采样过程,提供更高的精度、速度和灵活性。
mask增强去噪效率。这些方法利用mask来提高基于扩散的图像编辑的效率。方法[221]–[223]在确保高质量结果的同时,优先考虑速度提升。通过mask选择性地处理图像区域,有效降低计算需求并提高整体效率。FISEdit 引入了一种缓存支持的稀疏扩散模型,利用输入文本的微小修改与输出图像受影响区域之间的语义映射。它自动识别受影响的图像区域,并利用缓存的未变区域特征图来加速推断过程。Blended Latent Diffusion 利用文本到图像的潜在扩散模型,通过在低维潜在空间中运行加速扩散过程,并有效避免在扩散模型的每个时间步对CLIP 进行梯度计算的需求。PFB-Diff 通过多层特征混合无缝地将文本条件生成的内容集成到目标图像中,并在交叉注意力层中引入注意力mask机制,以将特定词语的影响限制在期望区域,从而提高背景编辑的性能。
mask自动生成。这些方法通过自动生成mask实现精确的图像编辑。DiffEdit 通过自动生成隔离相关修改区域的mask简化语义编辑。这种选择性编辑方式保护未编辑区域并保持其语义完整性。RDM 引入了一种区域感知扩散模型,该模型无缝集成mask以自动根据文本驱动的引导定位和编辑感兴趣区域。MFL 提出了一种针对文本引导图像编辑的两阶段无mask训练范式。在第一阶段,根据源提示获得统一mask,然后基于扩散模型使用提供的mask和目标提示生成多个候选图像。
mask引导区域聚焦。这项研究利用mask作为导航工具,引导采样过程朝向特定感兴趣区域。方法[227], [228] 擅长本地化编辑,确保修改与文本提示或编辑要求中指定的区域精确对齐。Differential Diffusion 开创了一种区域感知编辑范式,其中mask用于定制源图像中每个区域的变化强度。这允许细粒度的控制,促进精美细节和艺术表达。Watch Your Steps 将mask用作相关性图,以定位所需的编辑区域,确保仅编辑最相关的区域,同时保留原始图像的其他区域。
多噪声重定向
多噪声重定向是一种在单个步骤中预测多个不同方向的噪声,然后将它们重定向为一个单一噪声的过程。此重定向的优势在于,它能够使单一噪声同时统一多个不同的编辑方向,从而更有效地满足用户的编辑需求。 语义噪声引导 这些方法在采样过程中通过语义引导噪声重定向,增强了对图像内容的细粒度控制。Stable Artist 和 SEGA 展示了使用语义引导来操控扩散过程的能力。它们通过控制噪声重定向过程中的各种语义方向,促进了图像构图的精细编辑。LEDITS 通过将 DDPM 反演 [196]与 SEGA 结合应用语义噪声引导,支持多样化的编辑方向,包括对象编辑和整体风格变化。
面向对象的噪声重定向 OIR-Diffusion 引入了面向对象的反演和重组方法,这使得能够对图像中的特定对象进行细粒度编辑。通过为每个样本确定最佳反演步骤,并将编辑区域与其他区域无缝集成,它显著保持了未编辑区域的完整性,并在编辑多样的对象属性方面取得了显著成果,尤其是在复杂的多对象场景中。
修复和扩展
图像修复和扩展,通常被视为图像编辑的子任务,具有独特的目标和挑战。为了更好地解释,将它们分为两大类型(参见下图9)。
传统的上下文驱动修复
监督训练
基于监督训练的图像修复(inpainting)和图像扩展(outpainting)方法通常从头开始训练一个扩散模型,使用成对的损坏和完整图像。Palette 开发了一个基于条件扩散模型的统一框架,用于图像到图像的翻译,并分别在四个图像到图像的翻译任务上训练该框架,即上色、修复、扩展和 JPEG 恢复。它通过直接将低质量的参考图像与 t−1 步的去噪结果连接起来,作为 t 步噪声预测的条件。SUD2 基于并扩展了 SUD 框架,整合了相关性最小化、噪声注入等附加策略,特别是使用去噪扩散模型来解决半监督学习中成对训练数据稀缺的问题。
Zero-Shot 学习
上下文先验整合。这种方法旨在从图像未损坏部分提取固有结构和纹理,作为补充,以在每一步生成被遮挡损坏区域的内容,从而保持全局内容一致性。具有代表性的是,Repaint 基于一个预训练的无条件扩散模型,并通过在每个逆向步骤中从扩散模型中采样遮挡区域,从给定图像中采样未遮挡区域,来修改标准去噪策略。GradPaint 也利用预训练的扩散模型来估计遮挡图像区域的内容。然后,它使用自定义损失函数来测量与未遮挡部分的一致性,并根据损失的梯度更新生成的内容,以确保上下文一致性。
退化分解。图像修复可以被视为一般线性逆问题的一个特定应用,其表示为:
其中, 是退化算子(例如,由 0 和 1 组成的mask矩阵,用于指示图像修复中的损坏区域),。目标是从损坏的图像 中恢复原始图像 。一些研究通过对 进行分解来实现这一目标。DDRM 利用预训练的去噪扩散模型和 的奇异值分解 (SVD),将恢复过程转化为 的谱空间中的高效迭代扩散过程。不同的是,DDNM 通过应用范围-零空间分解来解决图像逆问题,利用退化矩阵 的伪逆将图像分为两个不同的成分。
后验估计。 为了解决如方程 13 中所述的一般噪声线性逆问题,几项研究 [70], [268]–[272] 专注于利用基于贝叶斯定理的无条件扩散模型来估计后验分布 。它在反向扩散过程的每一步计算条件后验 。通过贝叶斯定理,可以推导出:
然后计算对应的对数似然梯度:
得分函数 可以通过预训练的得分网络 进行估计。 的估计则简化为估计未知项 。两个具有代表性的早期工作,MCG和 DPS,通过将后验 近似为 ,其中 是无噪声的 的期望,并通过 Tweedie 公式将其形式化为 。因此,公式 14 变为:
其中, 是步长。MCG 进一步在更新后通过公式 15 添加了一个投影到测量子空间,作为对理想数据一致性偏差的校正措施。ΠGDM 将公式 14 中的后验估计框架扩展到了线性、非线性和可微逆问题,并引入了退化函数 的 Moore-Penrose 伪逆 。GDP 提出了一个不同的近似,其公式化为:
其中,、、 和 分别是图像距离度量、质量损失、控制引导幅度的缩放因子和调整图像质量的缩放因子。为了实现类似的目标,CoPaint 使用最终生成图像的一步估计来确定性地预测 ,以便在每个中间去噪步骤中使修复误差的计算变得易于处理。
多模式条件修复
随机 mask 训练
传统的图像修复主要侧重于根据周围的上下文填充图像中的缺失区域,通常缺乏对内容的精确控制。随着文本到图像扩散模型的发展,这一限制通过引入额外的用户提供的多模态条件(如文本描述、分割图和参考图像)作为引导得到了克服。这些模型(例如 Stable Diffusion 和 Imagen)也可以适应图像修复任务,其中在反向扩散过程中,噪声背景被原始图像的噪声版本所替代。然而,由于采样过程中对全局上下文的可见性有限,这种修改有时会导致不满意的样本。为了解决这一问题,GLIDE 和 Stable Inpainting(Stable Diffusion 的图像修复专家 v1.5)等模型进一步微调了预训练的文本到图像模型,使其专门用于修复任务。它们使用随机生成的mask、带mask的图像以及完整的图像说明,允许模型在训练期间利用未被遮挡区域的信息。作为开创性工作,它们为后续研究提供了有价值的见解。
精确控制调节
随机mask的一个关键问题是,它可能覆盖与文本提示无关的区域,导致模型忽略提示,特别是在mask区域较小或仅覆盖部分对象时。为了更精确地控制修复内容,提出了几种方法。
SmartBrush 引入了一个精度因子,通过对精确的实例mask应用高斯模糊,生成从细致到粗略的各种mask类型。这允许用户在包含目标对象的粗略mask和紧贴对象形状的详细mask之间进行选择。
Imagen Editor 通过微调扩展了 Imagen ,采用级联扩散模型进行文本引导的修复。它在每个扩散阶段整合图像和mask上下文,使用三个卷积下采样图像编码器。这里的mask是由对象检测器 SSD Mobilenet v2 动态生成的,而不是随机mask。
PbE 和 PhD 关注使用参考图像进行用户定制的修复。具体来说,PbE 丢弃文本,仅从参考图像中提取主体信息,使用 CLIP 。参考图像从修复图像本身裁剪并进行增强以支持自监督训练。相比之下,PhD 在训练过程中同时整合文本和参考图像,与 PbE 的方法相同。
Uni-paint 首先在输入图像未mask区域上用空文本微调 Stable Diffusion,然后在推理过程中通过不同条件整合技术使用多种引导模式,包括无条件、文本驱动、笔触驱动、示例驱动的修复及其组合进行多模态修复。对于面部修复,PVA 通过 Transformer 块编码与mask图像具有相同身份的几个参考图像,以保留身份。输出图像embedding与 CLIP 文本embedding结合,通过并行视觉注意机制作为 Stable Inpainting 模型的额外条件。
SmartMask 利用语义无模态分割数据创建高质量的无mask对象插入注释。它训练一个扩散模型从这些注释中预测实例图,包括语义图和场景上下文。在推理过程中,它使用全景分割创建语义图,引导对象插入mask的预测。
预训练扩散优先利用
尽管基于训练的方法取得了显著进展,但仍然存在一些挑战,特别是在收集大规模真实数据和模型训练所需的资源方面。因此,一些研究转向特定的图像修复任务,通过整合各种技术来利用预训练文本到图像扩散模型的生成能力。
Blended Diffusion 使用 CLIP 计算来自预训练的无条件扩散模型的去噪图像embedding与引导文本embedding之间的差异,以在mask区域内优化生成。然后,在每个采样步骤中,将噪声mask区域与输入图像未mask部分的相应噪声版本进行空间混合。Blended Latent Diffusion 进一步在 LDM 中应用该技术以提高效率。
Inpaint Anything 将 SAM 和现有的修复模型(如 LaMa 和 Stable Inpainting )结合成一个整体框架,使用户能够通过简单的点击移除、替换或填充图像的任何部分,提供了高度的用户友好性和图像编辑的灵活性。MagicRemover以空文本反演 开始,将图像投影到一个噪声潜在代码中,然后在采样过程中优化后续代码。它引入了一种基于注意力的引导策略和分类器优化算法,以在更少的步骤中提高修复过程的精度和稳定性。
HD-Painter 专为高分辨率图像修复而设计,分为两个阶段:图像完成和专门用于修复的超分辨率。第一阶段在 Stable Diffusion 的潜在空间中进行,其中一种提示感知的内向注意力机制替换了原始的自注意力,并采用了额外的重加权注意力分数引导。此修改确保生成的内容与输入提示更好地对齐。第二阶段使用 Stable Diffusion 超分辨率变体,对低分辨率修复图像进行条件化和mask混合。
扩展
图像外扩(outpainting)与图像修复(inpainting)相似,但并不相同,其目标是生成新的像素,顺畅地扩展图像的边界。现有的文本到图像(T2I)模型,如 Stable Diffusion 和 DALL-E,由于在包含各种大小和形状图像的庞大数据集上进行训练,可以被推广用于解决这一任务。外扩通常被视为图像修复的一种特殊形式,具有类似的实现方式。例如,Palette 通过将裁剪后的图像与其原始版本直接结合作为输入来训练扩散模型,以监督的方式进行。PowerPaint 将图像修复及相关任务分为四个具体类别,将外扩视为一种上下文感知的图像修复。它通过可学习的任务特定提示和微调策略增强了 Stable Diffusion,以精确地引导模型实现不同的目标。
基准与评估
基准建设
在前面的章节中,深入探讨了基于扩散模型的图像编辑方法的技术细节。除了这些分析,评估这些方法在不同编辑任务中的能力也至关重要。然而,现有的图像编辑基准有限,无法完全满足的调查需求。例如,EditBench 主要针对文本和mask引导的图像修复,忽略了涉及全局编辑的更广泛任务,如风格迁移。虽然 TedBench 扩展了任务范围,但缺乏详细的说明,这对于评估依赖文本指令的方法至关重要。此外,EditVal 基准虽然试图更全面地覆盖任务和方法,但受限于其使用的 MS-COCO 数据集的图像质量,这些图像通常分辨率低且模糊。
为了解决这些问题,引入了 EditEval,一个用于评估通用扩散模型图像编辑方法的基准。EditEval 包含精心挑选的 50 张高质量图像,每张图像都附有文本提示。EditEval 评估来自上表 1 中选择的 7 个常见编辑任务的表现。此外,提出了 LMM Score,这是一种利用大型多模态模型(LMMs)能力来评估不同任务编辑表现的定量评价指标。除了 LMM Score 提供的客观评价,还进行了一项用户研究以纳入主观评价。EditEval 的构建及其应用的详细信息如下所述。
任务选择
在选择评估任务时,考虑了上表 1 中所示的能力。观察到大多数方法能够处理语义和风格任务,但在结构编辑方面遇到挑战。其潜在原因是许多当前的文本到图像(T2I)扩散模型(大多数编辑方法依赖于此)在准确的空间感知方面存在困难。例如,当提示中包含“在左侧”、“在下面”或“在后面”等术语时,它们常常生成不一致的图像。考虑到这些因素和实际应用,选择了七个常见任务作为基准:对象添加、对象替换、对象移除、背景替换、风格变化、纹理变化和动作变化。这些任务旨在对编辑方法的性能进行全面评估,从简单的对象编辑到复杂的场景变化。
数据集构建
为了选择图像,从 Unsplash 的专业照片在线库中手动挑选了 50 张图像,确保主体和场景的多样性。这些图像被裁剪为正方形格式,以符合大多数编辑模型的输入比例。然后,将所选图像分为七组,每组对应一个特定的编辑任务。
在为每张图像生成提示时,使用 LMM 创建一个描述图像内容的源提示、一个描述编辑预期结果的目标提示,以及指导编辑过程的相应指令。这一步通过为 GPT-4V(一种广泛使用的 LMM)提供详细模板来实现,模板包括一个示例对和若干指令。示例对包括任务指示(例如,“对象移除”)、源图像、源描述(例如,“一杯咖啡放在未整理的床上”)、目标描述(例如,“未整理的床”)和指令(例如,“移除咖啡杯”)。与此示例一起,向 GPT-4V 提供了关于生成新图像和任务指示的源描述、目标描述和指令的明确期望。此方法确保 GPT-4V 生成的提示和指令不仅与指定的编辑任务一致,还在场景和主体上保持多样性。
在 GPT-4V 生成初始提示和指令后,进行仔细审查,以确保每个提示和指令集具体、清晰,并直接适用于相应的图像和任务。
最终的数据集,包括所选图像、它们的源和目标提示以及编辑指令,已在附带的 GitHub 仓库中提供。
指标设计与选择
图像编辑领域传统上依赖于CLIPScore 作为主要的定量评估指标。虽然其在评估图像与相应文本提示的对齐方面效果显著,但在包含许多细节和特定空间关系的复杂场景中,CLIPScore可能表现欠佳。这一局限性促使我们需要一种更通用和全面的指标,适用于更广泛的图像编辑任务。因此,提出了LMM Score,这是一种利用大型多模态模型(LMMs)的先进视觉语言理解能力的新指标。
为开发这一指标,首先指导GPT-4构思一个定量指标,并通过适当的用户提示,制定一个允许对一般图像编辑任务进行客观评估的框架。基于GPT-4的建议,评估框架包括以下要素,使用源图像 及其文本描述 ,由 种方法生成的编辑图像集合 ,编辑提示 ,编辑指令 ,以及任务指示符 。该标准整合了四个关键因素:
-
编辑准确性:评估编辑图像 如何紧密符合指定的编辑提示 和指令 ,衡量编辑的精确性。
-
上下文保留:评估编辑图像 如何维护无需更改的源图像 的上下文。
-
视觉质量:评估编辑图像 的整体质量,包括分辨率、无伪影、色彩准确性、清晰度等因素。
-
逻辑现实性:评估编辑图像 在遵循自然法则(如光照一致性、纹理连续性等)方面的逻辑现实性。
在评估时,每个编辑图像 在这些因素上进行评估,产生四个子分数(范围为1到10),分别表示为 ,,,和 。总体得分 计算为这些子分数的加权平均,以反映整体编辑质量:
此加权公式由 GPT-4 提出,旨在平衡每个评估因素的相对重要性。根据提出的框架,使用 LMM,具体来说是本研究中的 GPT-4V,来进行这一评估。GPT-4V 遵循用户预定义的指令来计算每个编辑图像在四个评估因素上的子分数,获得如公式 (17) 中的 值。为了便于 LMM Score 的用户友好应用,提供了一个模板,其中包括预定义的指令和必要的材料,可以在我们的 GitHub 仓库中访问,以促进其在图像编辑评估中的采用。
除了 LMM Score 提供的客观评估外,还进行了一项用户研究以收集主观反馈。该研究涉及 50 名来自不同背景的参与者,确保广泛的观点。每位参与者都会看到源图像、其描述、编辑提示和指令,以及一系列编辑后的图像。然后,他们被要求根据 LMM Score 使用的相同四个评估因素为每个编辑图像评分。每个因素的评分范围是 1 到 10。参与者的评分然后被汇总以计算每个图像的整体用户评分 (),与公式 (17) 中的计算相同。来自该用户研究的结果补充了 LMM Score 评估,为不同编辑方法的性能提供了全面的评估。
评估
方法选择
对于每个编辑任务的评估,从上表 1 中精心选择 4 到 8 种方法,涵盖训练型、测试时微调和无需训练与微调的方法。为了确保公平和一致的比较,选择标准如下:方法必须仅需文本条件,具备处理特定任务的能力,并且具有可供实施的开源代码。排除特定领域的方法,以避免其在不同领域中的有限适用性所带来的限制。这些选定的方法将在后续小节中具体说明。
性能比较
为了全面评估所选方法在7个编辑任务中的表现,计算了所有评估样本的SLMM和SUser的平均值和标准差,如下图10所示。色条显示了从最小到最大分数的范围。从结果中,可以得到几个见解。首先,没有单一方法在所有任务中都优于其他方法。例如,虽然LEDITS++ 在对象移除任务中表现出色(下图10(c)),但在风格变化任务中表现不佳(下图10(e))。其次,大多数方法在每个任务中表现出分数波动较大的现象,这可以从最小值和最大值之间的跨度以及SLMM和SUser的大标准差中看出。这种变化表明这些方法的不稳定性,暗示方法的表现可能依赖于样本,并可能无法在各种场景中一致地满足编辑要求。第三,一些方法在特定任务中表现出稳定且令人印象深刻的性能。例如,Null-Text Inversion (Null-Text) 在对象替换、背景更改和纹理更改中始终显示出高分数分布,表明其在某些实际应用中的可靠编辑质量。最后,SLMM和SUser的平均值在每个任务中的每种方法上都非常接近,表明LMM Score很好地反映了用户的偏好。尽管方法的表现有所波动,但LMM Score与用户感知之间的一致性表明LMM Score是图像编辑的可靠指标。除了定量结果,还在下图13中展示了几个用于定性比较的视觉示例。
LMM Score与用户研究的相关性 为了检验LMM Score的有效性,研究了它与用户研究之间的相关性。具体来说,首先计算了收集的用户数据在4个因素上的4个子分数的平均值。然后,在每个编辑任务中,计算LMM子分数与用户研究子分数在每个样本上的Pearson相关系数。最后,这些系数在所有样本中平均,以获得每个任务每个因素的整体相关性。结果如下图11所示,揭示了编辑任务之间的显著一致性,表明客观的LMM Score评估与主观的人类判断之间的强一致性。
LMM Score与CLIPScore的比较 为了进一步评估LMM Score的有效性,计算了常用指标CLIPScore 与用户评分之间的Pearson相关系数进行比较。CLIPScore是使用指定的文本提示对源样本和由方法在特定编辑任务中生成的相应编辑图像计算的[279]。一旦为所有样本跨7个选定任务获得所有CLIPScore值,计算这些分数与所有样本上的总体用户评分之间的Pearson相关系数。与LMM Score不同,CLIPScore不考虑特定因素,因此直接与SUser进行比较。这些系数随后被平均以得出每个任务的整体相关系数。同时,计算所有样本上的总体LMM分数SLMM与总体用户评分之间的Pearson相关系数,并在每个任务中平均。所有SLMM分数都被归一化到[0, 1]以匹配CLIPScore的范围。下图12可视化了这些比较,并表明对于所有这些编辑任务,LMM Score与用户判断的相关性比CLIPScore更接近,表明LMM Score在反映用户评估方面更准确,并在各种图像编辑任务和方法的评估中更有效。
挑战和未来方向
尽管扩散模型在图像编辑中取得了成功,但仍有一些局限性需要在未来的工作中解决。
少步模型推理。大多数基于扩散的模型在推理过程中需要大量步骤才能获得最终图像,这既耗时又计算成本高,给模型部署和用户体验带来了挑战。为了提高推理效率,已经研究了少步或一步生成的扩散模型。最近的研究通过从预训练的强扩散模型中提取知识来减少步骤数量,以便少步模型可以模仿强模型的行为。一个更有趣但具有挑战性的方向是直接开发不依赖预训练模型的少步模型,如一致性模型。
高效模型。训练能够生成逼真结果的扩散模型计算密集且需要大量高质量数据。这种复杂性使得开发用于图像编辑的扩散模型非常具有挑战性。为了降低训练成本,最近的研究设计了更高效的网络架构作为扩散模型的骨干。此外,另一个重要方向是只训练部分参数或冻结原始参数,并在预训练的扩散模型上添加少量新层。
复杂物体结构编辑。现有工作在编辑图像时可以合成逼真的颜色、风格或纹理。然而,在处理复杂结构(如手指、标志和场景文本)时仍会产生明显的伪影。为了解决这些问题,之前的方法通常使用负面提示,如“六根手指、坏腿”等,让模型避免生成此类图像,这在某些情况下有效,但不够稳健。最近的研究开始使用布局、边缘或密集标签作为指导来编辑图像的整体或局部结构。
复杂光照和阴影编辑。编辑物体的光照或阴影仍然具有挑战性,这需要准确估计场景中的光照条件。之前的工作如Total Relighting使用网络组合来估计前景物体的法线、反照率和阴影,以获得逼真的重光照效果。最近,基于扩散的模型被提出用于编辑面部光照(如DiFaReli)。然而,利用预训练扩散模型的强光照先验来编辑肖像或一般物体仍是一个开放领域。同样,ShadowDiffusion探索了基于扩散的阴影合成,可以生成视觉上令人满意的物体阴影。然而,使用扩散模型在不同背景条件下准确编辑物体的阴影仍是一个未解决的问题。
图像编辑的不稳定性。 现有的基于扩散的图像编辑模型可以在一定条件下合成逼真的视觉内容。然而,它们在许多现实场景中仍然表现不佳。这一问题的根本原因在于模型无法准确地建模条件分布空间中的所有可能样本。如何改进模型以持续生成无伪影的内容仍然是一个挑战。有几种方法可以缓解这一问题。首先,扩大模型训练的数据规模,以覆盖具有挑战性的场景。这是一个有效但代价高昂的方法。在某些情况下,收集足够的数据非常具有挑战性,比如医学图像、视觉检查数据等。其次,使模型能够接受更多条件,如结构指导 、3D感知指导和文本指导,以实现更可控和确定的内容创建。第三,采用迭代精炼或多阶段训练,以逐步改善模型的初始结果。
准确的评估指标。 准确的评估对于图像编辑至关重要,以确保编辑后的内容与给定条件良好对齐。然而,尽管一些定量指标如FID、KID、LPIPS、CLIP Score、PSNR和SSIM已被用作参考,大多数现有工作仍然严重依赖用户研究来提供相对准确的视觉结果感知评估,这既不高效也不具备可扩展性。可靠的定量评估指标仍然是一个未解决的问题。最近,提出了更准确的指标来量化物体的感知相似性。DreamSim 考虑布局、姿态和语义内容,测量两幅图像的中层相似性,优于LPIPS。同样,前景特征平均(FFA)提供了一种简单而有效的方法来测量物体的相似性,无论其姿态、视角、光照条件或背景。在本文中,还提出了一种有效的图像编辑指标LMM Score,借助于LMM。
结论
本文广泛概述了基于扩散模型的图像编辑方法,从多个角度审视了这一领域。分析首先根据学习策略将超过100种方法分为三大类:基于训练的方法、测试时微调的方法以及无需训练和微调的方法。接着,将图像编辑任务分为三类:语义编辑、风格编辑和结构编辑,总共涵盖12种具体类型。探讨了这些方法及其对提升编辑性能的贡献。通过图像编辑基准EditEval,对7个任务及近期的最新方法进行了评估。此外,引入了一个新的指标LMM Score,用于对这些方法进行比较分析。在总结评审时,强调了图像编辑领域的广泛潜力,并提出了未来研究的方向。
参考文献
[1] Diffusion Model-Based Image Editing: A Survey