您的位置:首页 > 科技 > 能源 > 创建微信公众号要钱吗_百度收录入口在哪里_免费影视软件靠什么赚钱_实时新闻热点

创建微信公众号要钱吗_百度收录入口在哪里_免费影视软件靠什么赚钱_实时新闻热点

2025/1/7 9:05:19 来源:https://blog.csdn.net/ZhouDevin/article/details/144785311  浏览:    关键词:创建微信公众号要钱吗_百度收录入口在哪里_免费影视软件靠什么赚钱_实时新闻热点
创建微信公众号要钱吗_百度收录入口在哪里_免费影视软件靠什么赚钱_实时新闻热点

Object Detection with Transformers: A Review学习一下DETR是如何发展的

摘要

        Transformer 在自然语言处理 (NLP) 中的惊人性能促使研究人员探索它们在计算机视觉任务中的应用。DEtection TRansformer (DETR) 通过将检测重构为集合预测问题,将转换器引入对象检测任务。因此,无需提案生成和后处理步骤。最初,尽管性能具有竞争力,但DETR 的训练收敛速度慢,对较小物体的检测效率低下。然而,为了解决这些问题,人们提出了许多改进,从而大大改进了 DETR 并使其能够展示最先进的性能。据我们所知,这是第一篇对原始 DETR 模型中最近提出的 21 项进展进行全面回顾的论文。我们深入研究了 DETR 的基础模块及其最近的增强功能,例如对主干结构的修改、查询设计策略和对注意力机制的改进。此外,我们对各种检测变压器进行了比较分析,评估了它们的性能和网络架构。我们希望这项研究能激发研究人员对解决现有挑战和探索变压器在目标检测领域的应用的兴趣。对检测变压器的持续发展感兴趣的读者可以参考我们的网站 https://github.com/mindgarage-shan/transformer_object_detection_survey。

关键词 :Transformer、Object Detection、DETR、Computer Vision、Deep Neural Networks

1、引言

        物体检测是计算机视觉中的基本任务之一,涉及对图像中的物体进行定位和分类 [1], [2], [3], [4]。多年来,凸神经网络 (CNN) 一直是对象检测模型的主要支柱 [1]。然而,最近 transformer 在自然语言处理 (NLP) 方面的成功也促使研究人员探索它们在计算机视觉中的潜力 [5]。transformer 架构 [6] 已被证明可以有效地捕获序列数据 [6] 中的长距离依赖关系,使其成为对象检测任务的有吸引力的候选者。

        2020 年,Carion 等人提出了一种名为 DEtection TRansformer (DETR) [7] 的新型对象定义框架,它用使用 transformer 编码器-解码器网络的完全端到端的可训练架构取代了传统的基于区域建议的方法。DETR 网络显示出有希望的结果,其性能优于基于 CNN 的通用对象检测器 [1]、[2]、[3]、[4],同时还消除了对手工制作组件(如区域建议网络)和非极大值抑制 (NMS) [8] 等后处理步骤的需求。

        自引入 DETR 以来,已经提出了一些修改和改进来克服其局限性,例如慢速训练收敛和小对象的性能下降。图 1 显示了文献关于 Detection Transformer 及其改进性能和训练收敛性的修改的概述。

  • Deformable-DETR [9] 将注意力机制视为训练转换缓慢的主要原因,从而修改了注意力模块来处理图像特征图。
  • UP-DETR [10] 提出了对 DETR 的预训练的一些修改,类似于自然语言处理中 transformer 的预训练。
  • Efficient-DETR [11] 基于原始 DETR 和 Deformable-DETR 检查了 ran domly 初始化的对象概率,包括参考点和对象查询,这是多次训练迭代的原因之一。
  • SMCA-DETR [12] 引入了一个空间调制的共注意力模块,它取代了 DETR 中现有的共注意力机制,以克服 DETR 训练收敛缓慢的问题。
  • TSP-DETR [13] 处理了二分匹配的交叉注意力和不稳定性,以克服 DETR 的缓慢训练收敛。Conditional-DETR [14] 提出了一种条件交叉注意机制来解决训练收敛是 DETR 的 sue 问题。
  • WB-DETR [15] 将用于特征提取的 CNN 主干视为一个额外的组件,并提出了一个没有主干的 transformer 编码器-解码器网络。
  • PnP-DETR [16] 提出了一个 PnP 采样模块,以减少空间冗余并提高变压器网络的计算效率。
  • Dynamic-DETR [17] 在编码器-解码器网络中引入动态注意力,以提高训练收敛性。
  • YOLOS-DETR [18] 使用有关输入空间设计的最少信息,展示了 Transformer 从图像识别到序列方面的检测的可转移性和多功能性并提高性能。
  • Anchor-DETR [19] 提出了对象查询作为锚点,广泛用于基于 CNN 的对象检测器。
  • Sparse-DETR [20] 通过使用可学习的交叉注意力图过滤编码器标记来降低计算成本。
  • D2ETR [21] 使用来自主干网络的解码器中的精细融合特征图,并带有一个新颖的跨尺度注意力模块。
  • FP-DETR [22] 重新确定了检测变压器的预训练和微调阶段。
  • CF-DETR [23] 利用本地信息来优化预测位置,因为不正确的边界框位置会降低小物体的性能。
  • DN DETR [24] 使用有噪声的对象查询作为额外的解码器输入,以减少 DETR 中二分匹配机制的不稳定性,从而导致收敛慢问题。
  • AdaMixer [25] 认为编码器是主干和解码器之间的额外网络,由于其设计复杂性,它限制了性能并减慢了训练收敛速度。它提出了一个 3D 采样过程和解码器中的一些其他修改。
  • REGO-DETR [26] 提出了一种基于 RoI 的检测细化方法,以改善检测转换器中的注意力机制。DINO [27] 考虑了正和负噪声对象查询,以加快训练收敛速度并提高小对象的性能。

        由于基于 transformer 的检测方法的快速发展,跟踪新的进展变得越来越具有挑战性。因此,对正在进行的进展进行审查是必要的,这将对该领域的研究人员有所帮助。本文详细概述了检测转化器的最新进展。表 1 显示了为提高性能和训练收敛性而进行的 Detection Transformer (DETR) 修改概述。

1.1 我们的贡献

        1) 从架构角度详细回顾基于 transformer 的检测方法。我们根据 Backbone 修改、预训练水平、注意力机制、查询设计等对 DEtec tion TRansformer (DETR) 的改进进行分类和总结。所提出的分析旨在帮助研究人员从性能指标方面更深入地了解检测变压器的关键部件。

        2) 检测转化器的性能评估。我们使用流行的基准 MS COCO [30] 评估了检测反式成型器的改进。我们还强调了这些方法的优点和局限性。

        3) 分析改进版本的检测反式转换器的准确性和计算复杂性。我们提出了最先进的基于 transformer 的检测方法与注意力机制、主干修改和查询设计的评价性比较。

        4) 检测变压器的关键构建块概述,以进一步提高性能和未来方向。我们研究了影响网络性能和训练融合的变量关键架构设计模块的影响,为未来研究提供可能的建议。

其余论文的排列方式如下。第 2 节讨论了以前的相关调查变压器。第 3 部分与对象检测和变压器有关,所有视觉类型。第 4 节是主要部分,它详细解释了检测变压器中的修改。Sec tion5 是关于评估协议的,而 Section6 提供了检测变压器的评估比较。第 7 节讨论了 openchallenges 和 futuredirections。最后,Section8总结论文。

2、相关以前的评论和调查

        许多调查研究了对象检测中的深度学习方法[40]、[41]、[42]、[43]、[44]、[45]。Table2 列出了现有的对象检测调查。在这些调查中,许多研究全面回顾了处理不同二维数据类型的方法 [31]、[33]、[46]、[47]。其他研究侧重于特定的2D应用[34],[48],[49],[50],[51],[52],[53],[54]和其他任务,如分割[55],[56],[57],图像标题[58],[59],[60],[61]和目标跟踪 [62]。此外,一些调查研究了深度学习方法并引入了视觉转换器 [36]、[37]、[38]、[39]。然而,大多数文献的重新检索是在改进之前发表的,并且缺少对基于变压器的对象检测器的详细审查。因此,对持续进展的调查是必要的,并且对研究人员会有所帮助。

3、目标检测和VIT

3.1 ObjectDetection

本节介绍了 objectDetection 的关键概念和以前使用的对象检测器。关于目标检测概念的更详细分析可以在 [35], [63], [64] 中找到。对象检测任务通过为每个对象及其类别提供边界框来定位和识别图像中的对象。这些检测器通常是在 PASCALVOC [65] 或 MSCOCO[30] 等数据集上训练的。骨干网络将输入图像的特征提取为特征图[66]。通常,ResNet-50 [67] 等主干网络在 ImageNet [68] 上进行了预训练,然后微调到下游任务 [69]、[70]、[71]、[72]、[73]、[74]。此外,许多作品也以视觉变形器 [75]、[76]、[77] 为支柱。单阶段对象检测器[3], [4], [78], [79], [80], [81], [82], [83], [84], [85], [86]只使用一个网络,速度更快,但性能比两阶段网络低。两阶段对象检测器 [1]、[2]、[8]、[66]、[87]、[88]、[89]、[90]、[91]、[92] 包含两个网络,以提供最终的边界框和类标签。轻量级检测器:轻量级检测器是对象检测模型,旨在提高计算效率,并且比标准对象检测模型需要更少的计算资源。这些是实时对象检测器,可用于小型设备。这些网络包括 [93], [94], [95], [96], [97], [98], [99], [100], [101]。3D 对象检测:3D 对象检测的主要目的是使用 3D 边界框识别感兴趣的对象并给出类标签。3D方法分为三类:基于图像的[102]、[103]、[104]、[105]、[106]、[107]、[108]、基于点云的[109]、[110]、[111]、[112]、[113]、[114]、[115]、[116]、[117]和基于多模态融合的[118]、[119]、[120]、[121]、[122]。

3.2 分割的Transformer

        自我注意机制可以用于分离任务 [123]、[124]、[125]、[126]、[127],提供像素级 [128] 预测结果。全景分割 [129] 通过提供每个像素的类和实例标签,共同解决语义和实例分割任务。Wang等[130]在三个基准[131]、[132]、[133]上提出了用于全景分割任务的位置敏感轴向注意。上述分割方法在基于 CNN 的网络中具有自我关注能力。最近,包含编码器-解码器模块的分段变压器[124]和[126]为使用变压器进行分段任务提供了新的方向。

3.3 用于场景和图像生成的Transformer

        以前,文本到图像的生成方法[134]、[135]、[136]、[137]都是基于GAN [138]。Ramesh等[139]介绍了一种基于变压器的模型,用于从提供的文本细节中生成高质量的图像。Transformer 网络也应用于图像合成 [140]、[141]、[142]、[143]、[144],这对于学习下游任务的无监督和生成模型很重要。使用无监督训练程序 [141] 的特征学习在两个数据集 [145] 上实现了最先进的性能 [146],而 SimCLR [147] 在 [148] 上提供了相当的性能。iGPT 法师生成网络 [141] 不包括类似于语言建模任务的预训练程序。然而,基于无监督CNN的网络[149]、[150]、[151]将先验知识视为架构布局、注意力机制和常规化。具有基于 CNN 的主干的生成对抗网络 (GAN) [138] 一直吸引着图像合成论文 [152]、[153]、[154]。TransGAN [143] 是一个强大的GAN网络,其中生成器和甄别器包含变压器模块。这些基于 transformer 的网络可提升场景和图像生成任务的性能。

3.4 用于低级视觉的Transformer

        低级视觉分析图像以识别其基本组件,并为进一步处理和更高级别的任务创建中间表示。在观察到注意力网络在高级视觉任务中的显著表现[7]、[124]之后,针对低级视觉问题引入了许多基于注意力的方法,如[155]、[156]、[157]、[158]、[159]。

3.5 多模态任务的Transformer

        多模态任务涉及对来自多个来源或模态(如文本、图像、音频或视频)的处理和组合。跨性别者网络在视觉语言任务中的应用也很广泛,包括视觉问答 [160]、视觉常识推理 [161]、跨模态检索 [162] 和图像描述[163]。这些变压器符号可分为单流 [164]、[165]、[166]、[167]、[168]、[169] 和双流网络 [170]、[171]、[172]。这些网络之间的主要区别在于损失函数的选择.

4 检测的Transformer

        本节简要介绍了 DEtection TRansformer (DETR) 及其改进,如图 2 所示。

4.1 DETR

        检测转换器 (DETR) [7] 架构比基于 CNN 的检测器(如 Faster R-CNN)[173] )简单得多,因为它消除了对锚点生成过程和后处理步骤(如非极大值抑制 (NMS))的需求,并提供了最佳检测框架。DETR 网络有三个主要模块:一个带有位置编码的骨干网络、一个编码器和一个带有注意力机制的解码器网络。从主干网络中提取的特征作为一个单一的向量及其在输入向量中的位置编码[174]、[175]馈送到编码器网络。在这里,对转发到多头注意力和前馈网络的键、查询和值矩阵执行自注意力,以找到输入向量的注意力概率。DETR 解码器将对象查询与编码器输出并行进行。它通过并行解码 N 个对象查询来计算预测。该网络不需要NMS 来删除冗余预测,因为它使用二分匹配损失和并行解码 [177]、[178]、[179]。相比之下,以前的工作使用基于 RNN 的自循环解码 [180]、[181]、[182]、[182]、[183]、[184]。DETRnetwork 存在一些挑战,例如训练收敛缓慢和小目标的性能下降。为了应对这些挑战,对 DETR 网络进行了修改。

4.2 Deformable-DETR

        DETR 的 attention 模块在初始化阶段为输入特征图的所有像素提供统一的权重值。这些权重需要许多 epoch 进行训练收敛,以找到信息丰富的像素位置。但是,它需要高计算量和大量内存。编码器中自我注意的计算复杂度为 O(w2 ih2 ici),而解码器中交叉注意力的计算复杂度为 O(hiwic2 i+Nhiwici)。这里,hi 和 wi 分别表示输入特征图的高度和宽度,N表示作为输入提供给解码器的对象查询。Deformable-DETR [9] 将注意力网络视为训练收敛缓慢和受限特征空间分辨率的主要原因,从而修改了受 [185]、[186] 启发的注意力模块来处理图像特征图。此注意力模块用于在参考点附近采集少量样本。在图 3 中,右上角的块表示 Deformable-DETR 中的可变形注意力模块。

多尺度特征图:高分辨率输入图像特征提高了网络效率,特别是对于小物体。但是,这在计算上是昂贵的。Deformable-DETR 提供高分辨率特征,而不会影响计算。它使用包含高分辨率和低分辨率特征的特征金字塔,而不是原始的高分辨率输入图像特征图。此特征金字塔的输入图像分辨率为 1/8、1/16 和 1/32,并包含其相对位置嵌入。简而言之,Deformable-DETR 用多尺度可变形注意力模块取代了 DETR 中的注意力模块,以降低计算复杂度并提高性能。

4.3 UP-DETR

        Dai et al. [10] 提出了一些修改来预训练 DETR,类似于 NLP 中的预训练转换器。来自输入图像的随机大小的补丁用作解码器的对象查询作为输入。UP-DETR 提出的预训练有助于检测这些随机大小的查询补丁。在图 3 中,左下角的块表示 UP-DETR。在预训练期间解决了两个问题:多任务学习和多查询本地化。多任务学习:目标检测任务结合了目标定位和分类,而这些任务总是具有不同的特征 [187]、[188]、[189]。补丁检测会损害分类特征。该文提出通过补丁特征重建和冻结预训练主干进行多任务学习,以保护transformer的分类特征。

多查询定位:DETR 的解码器将对象查询作为输入,以关注不同的位置和框大小。当此对象查询数 N(通常为 N = 100)较高时,单个查询组不合适,因为它存在收敛问题。为了解决对象查询和补丁之间的多查询定位问题,UP-DETR 提出了一种注意力掩码和查询洗牌机制。对象查询的数量分为 X 个不同的组,其中每个补丁提供给 N/X 个对象查询。尽管对象查询被划分为多个组,但在下游训练任务期间,这些查询没有明确的组。因此,这些查询在预训练期间通过将 10% 的查询补丁屏蔽为零来随机洗牌,类似于 dropout [191]。

4.4 Efficient-DETR

        DETR的性能还取决于对象查询,因为检测头会从对象查询中获得最终预测。但是,这些对象查询在训练开始时是随机初始化的。基于 DETR 和 Deformable-DETR 的 Efficient-DETR [11] 检查随机初始化的对象块,包括参考点和对象查询,这是多次训练迭代的原因之一。在图 3 中,右下角的框显示了 Efficient DETR。

        Efficient-DETR 有两个主要模块:一个 dense 模块和一个 sparse 模块。这些模块具有相同的最终检测头。密集模块包括骨干网络、编码器网络和检测头。在 [192] 之后,它使用滑动窗口通过特定于类的密集 prediction 生成提案,并选择 Top-k 特征作为对象查询和参考点。Efficient-DETR 使用 4-D 框作为参考点,而不是 2D 中心。稀疏网络与 dense 网络执行相同的工作,但其输出大小除外。dense 模块中的特征被视为 sparse 模块的初始状态,这被认为是对象查询的良好初始化。密集模块和稀疏模块都使用一对一的赋值规则,如 [193]、[194]、[195] 中所示。

4.5 SMCA-DETR

        它的解码器将对象查询作为输入,负责各种空间位置的对象检测。这些对象查询与编码器中的空间功能相结合。DETR 中的共注意力机制涉及在对象查询和图像特征之间计算一组注意力图,以提供类标签和边界框位置。但是,DETR 解码器中与对象查询相关的视觉区域可能与预测的边界框无关。这就是 DETR 需要许多训练 epoch 来找到合适的视觉位置以正确识别相应对象的原因之一。Gao等[12]提出了一种空间调制协同注意力(SMCA)模块,该模块取代了DETR中现有的协同注意力机制,以克服DETR训练收敛缓慢的问题。在图 4 中,右上角的块表示 SMCA-DETR。对象查询估计其相应对象的比例和中心,这些对象进一步用于设置 2D 空间权重图。

4.6 TSP-DETR

        TSP-DETR [13] 处理交叉注意力和二分匹配的不稳定性,以克服 DETR 训练收敛缓慢的问题。TSP-DETR 提出了两个基于具有特征金字塔网络 (FPN) [66] 的编码器网络的模块,以加速 DETR 的训练收敛。在图 4 中,左下角的块表示 TSP-DETR。这两个模块是TSP FCOS和TSP-RCNN,它们分别使用经典的一级探测器FCOS [196]和经典的两级探测器Faster-RCNN [197]。TSP-FCOS 使用新的感兴趣特征 (FoI) 模块来处理变压器编码器中的多级特征。两个模块都使用二分匹配机制来加速训练收敛。

TSP-FCOS:TP-FCOS 模块遵循 FCOS [196] 设计主干网和 FPN [66]。首先,将 CNN 主干从输入图像中提取的特征馈送到 FPN 分量,产生多级特征;两个特征提取头,即分类头和辅助头,使用四个卷积层和组归一化 [198],它们在特征金字塔阶段之间共享。然后,FoI 分类器过滤这些头的串联输出,以选择得分最高的特征。最后,transformer 编码器网络将这些 FoI 及其位置编码作为输入,提供类标签和边界框作为输出。

TSP-RCNN:与 TP-FCOS 一样,该模块通过 CNN 主干提取特性,并通过 FPN 组件生成多级特征。TSP-RCNN 模块取代了 TSP-FCOS 中使用的两个特征提取头,它遵循了 Faster R-CNN [197] 的设计。它使用区域建议网络 (RPN) 来查找 In terest (RoIs) 的区域以进一步优化。此模块中的每个 RoI 都有一个对象性分数和一个预测的边界框。RoIAlign [89] 应用于多级特征图以获取 RoIs 信息。通过完全连接的网络后,这些提取的特征将作为输入馈送到 Transformer 编码器。这些 RoI 提案的位置信息是四个值 (cnx,cny,wn,hn),其中 (cnx,cny) ∈ [0,1]2 表示 center 的标准化值,(wn,hn) ∈ [0,1]2 表示 height 和 width 的标准化值。最后,transformer 编码器网络输入这些 RoI 及其位置编码以进行准确预测。TSP-DETR 中的 FCOS 和 RCNN 模块加速了训练收敛并提高了 DETR 网络的性能。

4.7 Conditional-DETR

        DETR 网络中的交叉注意力模块需要高质量的 input embeddings 质量来预测准确的边界框和类标签。高质量的内容嵌入增加了训练收敛的难度。Conditional-DETR [14] 提出了一种条件交叉注意机制来解决 DETR 的训练收敛问题。它与简单的 DETR 的不同之处在于输入键 ki 和输入查询 qi 以交叉注意。在图 4 中,右下角的框表示有条件的 DETR。条件查询是从 2D 坐标以及前一个解码器层的嵌入输出中获得的。从 decoder-embedding 预测的候选框如下:

这里, e 是作为 input 馈送到解码器的 input embedding。该框是一个 4D 向量 [boxcxboxcyboxwboxh],框中心值为 (boxcx,boxcy),宽度值为 boxw,heightvalueasboxh .sig() 函数将预测从 0 到 1 进行标准化。FFN() 预测未规范化的盒子。r 是参考点的未归一化 2D 坐标,(0,0) 是简单的 DETR。这项工作要么学习每个框的参考点 r,要么从相应的对象查询中生成它们。它从解码器的 input embedding 中学习多头交叉注意的查询。此空间查询使交叉注意力头考虑显式区域,这有助于通过缩小空间范围来定位类标签和边界框的不同区域。

4.8 WB-DETR

        DETR 通过 CNN 主干提取局部特征,并通过变压器的编解码器网络获取全局上下文。WB-DETR [15] 证明,检测变压器中用于特征提取的 CNN 主干不是强制性的。它包含一个没有主干网的 transformer 网络。它序列化输入图像,并将每个独立令牌中的本地特征作为输入直接馈送到编码器。transformer 自注意力网络提供全局信息,可以准确获取输入图像 token 之间的上下文。但是,由于 transformer 缺乏局部特征建模的能力,因此需要包括每个 Token 的局部特征和相邻 Token 之间的信息。LIE-T2T (Local Information Enhancement-T2T) 模块通过重新组织和展开相邻的 patch,并在展开后关注每个 patch 的通道维度来解决这个问题。在图 5 中,右上角的块表示 WB DETR 的 LIE-T2T 模块。

4.9 PnP-DETR

        transformer 处理图像特征图,这些图被转换为一维特征向量以产生最终结果。虽然有效,但使用完整的特征图很昂贵,因为对背景区域的计算是无用的。PnP-DETR [16] 提出了一个轮询和池 (PnP) 采样模块,以减少空间冗余并提高变压器网络的计算效率。该模块将图像特征图分为上下文背景特征和精细前景对象特征。然后,transformer 网络使用这些更新的特征图并将其转换为最终的检测结果。在图 5 中,左下角的块表示 PnP DETR。此 PnP 采样模块包括两种类型的采样器:池采样器和轮询采样器。

4.10 Dynamic-DETR

        Dynamic-DETR [17] 在 DETR 的编码器-解码器网络中引入了动态注意力,以解决慢训练收敛问题和小目标检测问题。首先,提出了一种卷积动态编码器,使其对编码器网络的自注意力模块具有不同的注意力类型,以加快训练收敛速度;该编码器的关注度取决于空间效应、音阶效应和输入特征维度效应等各种因素。其次,在解码器网络中,基于 ROI 的动态注意力被交叉注意力取代。该解码器有助于专注于小物体,降低学习难度并更快地收敛网络。在图 5 中,右下角的框表示 Dynamic-DETR。这个动态编码器-解码器网络详细解释如下。

动态编码器: Dynamic-DETR 对自我注意力模块使用卷积方法。给定特征向量 F = {F1,· · ··,Fn},其中 n=5 表示来自特征金字塔的对象检测器,多尺度自注意力 (MSA) 如下:

Attn = MSA(F).F (29)

但是,由于 FPN 的比例特征图多种多样,这是不可能的。像金字塔卷积一样,使用 2D 凸面在相邻尺度内均衡不同尺度的特征图 [201]。它关注未调整大小的中间层的空间位置,并将信息传递给其缩放的相邻层。此外,SE [202] 被应用于组合特征以提供尺度关注。

动态解码器:动态解码器使用混合衰减块代替多头层,以简化交叉注意力网络中的学习并改进对小物体的检测。它还使用动态卷积,而不是受自然语言处理 (NLP) 中 ConvBERT [203] 启发的交叉注意力层。

        这些功能通过 FFN 层传递,以更新的对象嵌入、更新的框编码和对象类等各种预测。这个过程通过专注于稀疏区域,然后扩展到全球区域,简化了交叉注意力模块的学习。

4.11 YOLOS-DETR

        继承自 NLP 的 Vision Transformer (ViT) [5] 在图像识别任务上表现良好。ViT-FRCNN [204] 将预训练骨干 (ViT) 用于基于 CNN 的检测器。它利用卷积神经网络,并依靠强大的 2D 归纳偏差和区域池化操作来实现对象级感知。其他类似作品,如 DETR [7],引入了使用 CNN 和金字塔特征的 2D 归纳偏置。YOLOS-DETR [18] 使用有关输入空间设计的最少信息,介绍了 Transformer 从图像识别到序列方面的检测的可转移性和多功能性。它紧跟 ViT 架构,经过两次简单的修改。首先,它删除了图像分类补丁 [CLS],并添加了随机初始化的 100 个检测补丁 [DET] 作为 [205] 以及用于对象检测的输入补丁嵌入。其次,与 DETR 类似,使用二分匹配损失而不是 ViT 分类损失。

4.12 Anchor-DETR

        DETR 使用可学习的嵌入作为解码器网络中的对象查询。这些 input 嵌入没有明确的物理含义,无法说明关注点。优化网络具有挑战性,因为对象查询集中在特定目标以外的其他内容上。Anchor-DETR [19] 通过提出对象查询作为锚点来解决这个问题,这些锚点广泛用于基于 CNN 的对象检测器。此查询设计可以在一个区域提供多个对象预测。此外,还提出了对 attention 的一些修改,以降低内存成本并提高性能。在图 6 中,左下角的块显示 Anchor-DETR。Anchor-DETR 的两个主要贡献:查询和注意力变体设计,解释如下:

行和列解耦-注意:DETR 需要巨大的 GPU 内存,如 [208]、[209] 中所示,因为交叉注意力模块很复杂。它比解码器中的 self-attention 模块更复杂。虽然 Deformable-DETR 降低了内存成本,但它仍然会导致 ran dom 内存访问,使网络变慢。如图 6 左下角的块所示,行列解耦注意力 (RCDA) 减少了内存,并提供了类似或更好的效率。

锚点作为对象查询:基于 CNN 的对象检测器将锚点视为输入特征图的相对位置。相比之下,基于 transformer 的 de tectors 采用统一的网格位置、手工制作的位置或学习的位置作为锚点。Anchor-DETR 考虑两种类型的锚点:学习的锚点位置和网格锚点位置。网格锚点位置是输入图像网格点。学习的锚点位置是从 0 到 1(随机初始化)的均匀分布,并使用学习的参数进行更新。

4.13 Sparse-DETR

        Sparse-DETR [20] 通过可学习的交叉注意力图预测器过滤编码器标记。在将这些与解码器网络中的 kens 区分开来后,它只关注前景标记以降低计算成本。Sparse-DETR 引入了评分模块、编码器中的 aux-heads 和解码器的 Top-k 查询选择模块。在图 6 中,右下角的框表示 Sparse-DETR。首先,它使用选择前 ρ% 标记的评分网络确定作为输入馈送到编码器的标记的显著性。其次,aux-head 从 encoder 网络的输出中获取前 k 个令牌。最后,top-k 令牌用作解码器对象查询。

4.14 D2ETR

        已经提出了许多工作 [9]、[11]、[12]、[13]、[14] 通过修改交叉注意力模块来加快训练收敛。许多研究人员 [9] 使用多尺度特征图来提高小目标的性能。然而,高计算复杂度的解决方案尚未提出。D2ETR [21] 以较低的计算成本实现了更好的性能。不带编码器模块中,解码器直接使用骨干网络提供的精细融合特征图和新颖的跨尺度注意力模块。D2ETR 包含两个主要模块:主干和解码器。基于 Pyramid Vision Transformer (PVT) 的骨干网络由两个并行层组成,一个用于跨尺度交互,另一个用于尺度内交互。该主干包含四个 transformer 级别,以提供多尺度特征图。所有级别都具有相同的架构,具体取决于所选 Transformer 的基本模块。主干还包含三个并联的熔断层和四个变压器层。这些融合级别提供了输入特征的跨尺度融合。第 i 个熔断层显示在图 7 的右上块中。

4.15 FP-DETR

        现代基于 CNN 的检测器,如 YOLO [210] 和 Faster RCNN [197],利用在 ImageNet 上预训练的主干网络上的专门层,以享受预训练的好处,例如提高性能和更快的训练收敛。DETR 网络及其改进版本 [10] 仅对主干进行预训练,同时从头开始训练编码器层和 DE 编码器层。因此,transformer 需要大量的训练数据进行微调。不预训练检测转换器的主要原因是预训练和最终检测任务之间的差异。首先,transformer 的 decoder 模块将多个对象查询作为检测对象的输入,而 ImageNet clas sification 只接受一个查询(类标记)。其次,自注意力模块和交叉注意力模块中输入查询嵌入的投影很容易过度拟合单个类查询,使解码器网络难以 14 次预训练。此外,下游检测任务侧重于分类和定位,而上游任务仅考虑对感兴趣对象的分类。

        FP-DETR [22] 重新确定了检测变压器的预训练和微调阶段。在图 7 中,左下角的块表示 FP-DETR。它只需要检测转换器的 en coder 网络进行预训练,因为在 ImageNet 分类任务上预训练解码器具有挑战性。此外,DETR 同时使用编码器和 CNNbackboneas特征提取器。FP-DETR 用多尺度分词器取代了 CNN 主干,并使用编码器网络来提取特征。它在 ImageNet 数据集上对 Deformable-DETR 进行了完全预训练,并对其进行了微调以进行最终检测,从而实现有竞争力的性能。

4.16 CF-DETR

        CF-DETR [23] 观察到,在低 IoU 阈值下,检测转换器上小物体的 COCO 式公制平均精度 (AP) 结果优于基于 CNN 的探测器。它通过利用本地信息来优化预测位置,因为不正确的边界框位置会降低小对象的性能。CF-DETR 在 DETR 的解码器网络中引入了变压器增强型 FPN (TEF) 模块、粗层和细层。在图 7 中,右下角的框代表 CF-DETR。TEF 模块提供与 FPN 相同的功能,具有从主干中提取的非本地特征 E4 和 E4,以及从编码器输出中提取的 E5 特征。TEF 模块和编码器网络的功能作为输入馈送到解码器。解码器模块引入了一个粗块和一个细块。coarse 块从全局上下文中选择前景特征。精细模块有两个模块,自适应尺度融合 (ASF) 和局部交叉注意 (LCA),进一步细化粗框。简而言之,这些模块通过融合全局和局部以及全局信息来改进和丰富功能,以提高检测变压器的性能。

4.17 DAB-DETR

        DAB-DETR [29] 使用边界框坐标作为解码器中的对象查询,并在每一层中逐渐更新它们。在图 8 中,右上角的块表示 DAB DETR。这些框坐标通过提供位置信息并使用 height 和 width 值来更新位置注意力图,从而加快训练收敛速度。这种类型的对象查询为 attention 机制提供了更好的空间先验,并提供了简单的查询公式机制。

        解码器网络包含两个主要网络:一个用于更新查询的自注意力网络和一个用于查找特征探测的交叉注意力网络。原始 DETR 和 DAB-DETR 的自我注意之间的区别在于,查询和键矩阵也具有从边界框坐标获取的位置信息。cross-attention 模块将 key 和 query 矩阵中的位置和内容信息连接起来,并确定它们对应的 heads。解码器将输入嵌入作为内容查询,将锚点框作为位置查询,以查找与锚点和内容查询相关的对象概率。这样,用作对象查询的动态框坐标可以提供更好的预测,从而加快训练收敛速度并增加对小对象的检测结果。

4.18 DN-DETR

        DN-DETR [24] 使用噪声对象查询作为额外的解码器输入,以减少 DETR 中二分匹配机制的不稳定性,从而造成收敛慢的问题。在图 8 中,左下角的块表示 DN-DETR。解码器查询有两个部分:包含作为输入的噪声真值框标签对的降噪部分,以及包含作为输入的可学习锚点的匹配部分。匹配部分 M = {M0,M1,...,Ml−1} 确定真值标签对和解码器输出之间的相似性,而去噪部分 d = {d0,d1,...,dk−1} 尝试将真值对象结构为:

其中 I 是作为 trans former 编码器输入的图像特征, A 是注意力掩码,用于停止匹配和降噪部分之间的信息传输,以及相同真实对象的不同噪声级别之间的信息传输。解码器具有真值对象的噪声级别,其中噪声被添加到边界框和类标签中,例如标签翻转。它包含一个用于控制噪声水平的超参数 λ。DN-DETR 的训练架构基于 DAB-DETR,因为它也采用边界框坐标作为对象查询。这两种架构之间的唯一区别是类标签指示符作为解码器中的附加输入,以帮助标签去噪。边界框在 DAB-DETR 中的更新不一致,这使得相对偏移学习具有挑战性。DN-DETR 中的去噪训练机制提高了性能和训练收敛性。

4.19 AdaMixer

        AdaMixer [25] 将编码器视为主干和解码器之间的额外网络,由于其设计复杂性,它限制了性能并减慢了训练收敛速度。AdaMixer 提供不带编码器的检测变压器网络。在图 8 中,右下角的框表示 AdaMixer。AdaMixer 的主要模块说明如下。

3D 特征空间

3D 特征采样过程

AdaMixer 解码器

4.20 REGO-DETR

        REGO-DETR [26] 提出了一种基于 RoI 的检测细化方法,以改善DETR.在图 9 中,左下角的块表示 REGO DETR。它包含两个主要模块:多级递归租赁机制和基于 glimpse 的解码器。在多级循环机制中,在前一级检测到的边界框被认为是获得 glimpse 特征的。在描述对象时,这些被转化为使用早期注意力的精细注意力。

4.21 DINO

        DN-DETR 将正噪声添加到作为对象查询到解码器输入的锚点,并仅向附近具有真实对象的锚点提供标签。继 DAB-DETR 和 DN-DETR 之后,DINO [27] 提出了一种用于锚点初始化的混合对象查询选择方法和一种用于框预测的前瞻性两次机制。它提供了对比降噪 (CDN) 模块,该模块将位置查询作为锚框,并增加了额外的 DN 损失。在图 9 中,右下角的块表示 DINO。

5、数据集和评估指标

        比较检测 Trans Former 中的修饰以了解它们对网络大小、训练收敛和性能的影响非常重要。本节详细比较了 DETR 在常用基准 MSCOCO[30] 上的改进情况。Aminivalsetofthe COCO2014 用于检测变压器的评估。这些结果使用平均精密度均值 (mAP) 作为评估指标进行评估。mAP 是每个对象类别的平均精度 (AP) 的平均值,其中 AP 是精度-召回曲线下的面积 [211]。

6、结果与讨论

        DETR 中提出了许多进步,例如主干修改、查询设计和注意力优化,以提高性能和训练收敛性。表 3 显示了 COCO minival 套件上所有基于 DETR 的设计变压器的性能比较。我们可以观察到,DETR 在 500 个训练 epoch 中表现良好,并且在小对象上具有较低的 AP。修改后的版本提高了性能和训练收敛性,例如 DINO 在 12 个 epoch 时的 mAP 为 49.0%,并且在小对象上表现良好。

        对 DETR 及其在 COCOminival 集上的训练收敛性和模型大小的更新版本进行了定量分析。图 10 的 (a) 部分显示了使用 ResNet-50 主干网和训练 epoch 的检测变压器的 mAP。原始 DETR 以棕色线表示,训练收敛性低。它在 50 个训练时期的 mAP 值为 35.3%,在 500 个训练时期的 mAP 值为 44.9%。在这里,用红线表示的 DINO 在低训练 epoch 处收敛,并在所有 epoch 值上给出最高的 mAP。DETR中的注意力机制涉及计算每对特征向量之间的成对注意力分数,这在计算上可能很昂贵,尤其是对于大型输入图像。此外,DETR 中的自注意力机制依赖于使用固定位置编码来编码输入图像不同部分之间的空间关系。这可能会减慢训练过程并增加收敛时间。相比之下,Deformable-DETR 和 DINO 有一些修改,可以帮助加快训练过程。例如,Deformable DETR引入可变形的注意力层,可以更好地捕捉空间上下文信息,提高对象检测的准确性。同样,DINO使用腺体化学习方法来训练网络,以学习更多对目标检测有用的通用特征,使训练过程更快、更有效。

        图 10 的 Part(b) 比较了所有检测变压器的模型大小。在这里,YOLOS-DETR使用 DeiT small 作为主干而不是 DeiT-Ti,但它也在折痕模型尺寸上增加了 20 倍。DINO和REGO-DETR具有相当的mAP,但是REGO-DETR在模型大小上早就比DINO早了一倍,这些网络使用的架构比原来的DETR架构复杂,这增加了总参数和整体网络大小。

        我们还在图 11 中提供了 DETR 及其在所有大小物体上的更新版本的水化分析,对于小物体,原始 DETR 的 AP 在 50 个时期为 15.2%,而 Deformable-DETRhasanmAPvalue 在 50 个时期为 26.4%。Deformable-DETR 中的自注意力机制允许它从相邻像素中插值特征,这对于可能只占用几个像素的小物体特别有用。Deformable-DETR 中的这种机制捕获了有关小物体的更精确和详细的信息,这可以导致比 DETR 更好的性能。

7、个开放的挑战和未来的方向

        Detection Transformers 在各种对象检测基准测试中显示出有希望的结果。仍存在一些未解决的挑战和改进它的未来方向。表 4 提供了所有提议的 DETR 改进版本的优点和局限性。以下是 DETR 中一些未解决的挑战和未来改进方向:

改进注意力机制:变压器的性能依赖于注意力机制来捕获图像中各种空间位置之间的依赖关系。现在,60% 的修改 havebeendone 在检测变压器的注意力机制中提高性能和训练收敛。未来的研究可以专注于设计更精细的注意力机制来捕获空间信息或纳入特定于任务的约束。

自适应和动态主干网:主干网也会影响网络性能和大小。电流检测变压器去除主干或在所有图像中使用固定的主干架构。只有 10% 的骨干修改在 DETR 中完成以提高性能并减少网络大小。未来研究可以探索动态背骨架构,这些架构可以根据输入图像的特性来调整其复杂性。研究人员可以改进
检测变压器,这可能会导致更令人印象深刻的结果。

提高对象查询的数量和质量:在 DETR 中作为输入馈送到解码器的数量对象查询在训练和推理期间通常是固定的。但是,图像中对象的大小或数量可能会有所不同。稍后,在一些网络(如 DAB-DETR、DN-DETR 和 DINO)中观察到,修改对象查询的数量或质量会显著影响检测转换器的性能。DAB-DETR 使用动态锚框作为对象查询,DN-DETR 在对象查询中添加正噪声以进行降噪训练,DINO 在对象查询中添加正噪声和负噪声以改进降噪训练。未来的模型可以根据图像的内容调整对象查询的数量,以提高对象查询的数量。此外,研究人员可以包含更多的动态和自适应机制,以提高对象查询的质量。

8、结论

        检测变压器提供了高效和精确的目标检测网络,并提供了对深度神经网络运行的见解。这篇评论详细介绍了 Detection Transformers。具体来说,它侧重于 DETR 的最新进展,以证明性能和训练收敛性。修改了编码器-解码器网络中检测转换器的注意力模块以提高训练收敛性,并更新了作为解码器输入的对象查询以提高小目标的性能。我们提供了检测转换器的最新改进,包括骨干修改、查询设计和注意力优化。我们还从性能和架构设计方面比较了检测变压器的优势和局限性。这篇评论侧重于对象检测任务,为 DETR 的最新进展提供了独特的视角。我们希望这项研究将增加研究人员对解决在目标检测领域应用变压器模型的现有挑战的兴趣。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com