杭州网站制作培训_厦门seo起梦网络科技_百度搜索风云榜小说_网络营销专业主要学什么

摘要

https://arxiv.org/pdf/2403.11999
视觉Transformer（ $\mathrm{ViT}$ ）与卷积神经网络（CNN）的混合深度模型已成为视觉任务中一类强大的骨干网络。自然地，提高此类混合骨干网络的输入分辨率会增强模型容量，但不可避免地会面临计算成本随输入尺寸二次方增长的问题。相反，我们提出了一种具有高分辨率输入（即HIRI-ViT）的新型混合骨干网络，它将流行的四阶段ViT升级为专为高分辨率输入定制的五阶段ViT。HIRI-ViT基于将典型CNN操作分解为两个并行CNN分支的创新思想，以节约成本。其中一个高分辨率分支直接以主要的高分辨率特征为输入，但使用的卷积操作较少。另一个低分辨率分支首先对特征进行下采样，然后在低分辨率特征上利用更多的卷积操作。在识别任务（ImageNet-1K数据集）和密集预测任务（COCO和ADE20K数据集）上的实验均证明了HIRI-ViT的优越性。更值得一提的是，在可比的计算成本（ $\sim 5.0$ GFLOPs）下，HIRI-ViT在ImageNet数据集上以 $448 \times 448$ 的输入实现了迄今为止最佳的Top-1准确率 $84.3\%$ ，这绝对优于使用 $224 \times 224$ 输入的iFormer-S的 $83.4\%$ ，提高了 $0.9\%$ 。

索引词——视觉Transformer，自注意力学习，图像识别。

1 引言

受自然语言处理（NLP）中主导Transformer结构[1]的启发，计算机视觉（CV）领域见证了视觉Transformer（ViT）作为视觉骨干网络设计的兴起。这一趋势在图像/动作识别[2]、[3]、[4]、[5]以及如目标检测[6]等密集预测任务中最为明显。这些成功的很大一部分归功于通过传统Transformer块中的自注意力机制对输入视觉标记之间的长距离交互进行灵活建模。最近，几项并发研究[7]、[8]、[9]、[10]、[11]指出，直接在视觉标记序列上应用纯Transformer块是次优的。这种设计不可避免地缺乏二维区域结构建模的正确归纳偏置。为了缓解这一限制，它们引领了将卷积神经网络（CNN）的二维归纳偏置融入ViT的新潮流，从而产生了CNN+ViT混合骨干网络。

在CNN骨干网络设计中，一个常见的做法是增加网络深度/宽度/输入分辨率[12]、[13]，从而通过捕获输入中更精细的模式来增强模型容量。本着类似的精神，我们的工作旨在深入探索使用高分辨率输入扩展CNN+ViT混合骨干网络的过程。然而，与扩展CNN骨干网络类似，简单地增大流行ViT骨干网络的输入分辨率将带来实际挑战，尤其是计算成本急剧增加。以广泛采用的ViT骨干网络Swin Transformer[14]为例，当直接将输入分辨率从 $224 \times 224$ 增加到 $384 \times 384$ 时，ImageNet-1K的Top-1准确率从 $83.5\%$ 明显提高到 $84.5\%$ 。然而，如图1所示，具有 $384 \times 384$ 输入的Swin Transformer的计算成本（GFLOPs：47.0，推理时间：3.95毫秒）明显重于具有 $224 \times 224$ 输入的Swin Transformer（GFLOPs：15.4，推理时间：1.17毫秒）。
在这里插入图片描述

鉴于这个问题，我们的核心问题是——是否存在一种有原则的方法来在保持可比计算开销的同时，使用高分辨率输入扩展 $\mathrm{CNN}+$ ViT混合骨干网络？为此，我们设计了一系列专为高分辨率输入定制的五阶段Vision Transformers，这些模型在较早阶段包含两个分支的构建块，以在性能和计算成本之间寻求更好的平衡。具体来说，重塑的stem/CNN块中的关键组件是高分辨率分支（在高分辨率输入上进行较少的卷积操作）和低分辨率分支（在低分辨率输入上进行更多的卷积操作）的并行组合。这种双分支设计取代了stem/CNN块中具有标准卷积操作的单个分支。通过这种方式，我们不仅保留了使用高分辨率输入增强的模型容量，还通过每个分支的轻量化设计显著降低了计算成本。如图1所示，通过将输入分辨率从 $224 \times 224$ 增加到 $384 \times 384$ ，我们的HIRI-ViT实现了明显的性能提升，但计算成本仅略有增加（GFLOPs：从8.2到9.3，推理时间：从0.84毫秒到1.04毫秒）。即使将输入分辨率增大到 $768 \times 768$ ，HIRI-ViT也能带来显著的性能提升，同时需要的计算成本低于Swin Transformer。

通过将这种双分支设计融入 $\mathrm{CNN+ViT}$ 混合主干网络，我们提出了一种新的原则性五阶段视觉主干网络，即 $H I R I - Vi T$ ，它能高效地以高分辨率输入扩展视觉变换器（Vision Transformer）。特别是，我们首先将典型的卷积主干块（Conv-stem block）进行升级，将单一的卷积神经网络（CNN）分支分解为两个并行分支（即高分辨率和低分辨率分支），从而得到高分辨率主干（HR-stem）块。接下来，通过用提出的双分支设计替换CNN分支，对早期阶段的CNN块进行重新建模。这种新的高分辨率块（HR-block）可以触发对高分辨率输入的成本效益较高的编码。

本文的主要贡献在于提出了在保持计算成本合理的同时，使用高分辨率输入扩展 $\mathrm{CNN+ViT}$ 混合主干网络的方法。这也带来了将典型CNN操作针对高分辨率输入分解为两个并行轻量级CNN分支的优雅设计。通过在一系列视觉任务（例如图像识别、目标检测和实例/语义分割）上进行的广泛实验，我们证明了与最新ViT和CNN主干网络相比，在可比的计算成本下，我们新的 $H I R I - Vi T$ 主干网络具有优越性。

2 相关工作

2.1 卷积神经网络

受AlexNet[15]在ImageNet1K基准测试上取得突破的启发，卷积神经网络（CNN）已成为计算机视觉领域的实际主干网络。具体而言，其中一项开创性工作是VGG[16]，它通过增加网络深度来提高模型能力。ResNet[17]通过在卷积块之间引入跳跃连接来训练更深的网络，从而获得更好的泛化能力和令人印象深刻的结果。DenseNet[18]通过将每个卷积块连接到所有之前的块，进一步将网络扩展到数百层。除了加深网络外，设计多分支块是增强模型能力的另一个方向。InceptionNet[19]、[20]通过拆分-变换-合并策略将具有不同核的多个路径集成到单个卷积块中。ResNeXt[21]表明，使用同质多分支架构增加基数是提高性能的有效方法。Res2Net[22]通过构建分层类残差连接，在更细粒度级别上开发多个感受野。EfficientNet[13]利用神经架构搜索在网络宽度、深度和分辨率之间寻求更好的平衡。最近，ConvNeXt[23]、[24]通过将ResNet与变换器设计相结合，使其现代化，在与视觉变换器竞争时取得了具有竞争力的结果，同时保持了CNN的效率。

2.2 视觉变换器

受自然语言处理（NLP）领域变换器[1]的启发，视觉变换器架构最近开始主导视觉任务中主干网络的构建。视觉变换器（Vision Transformer）[2]的首次亮相将图像分割成一系列图像块（即视觉标记），然后直接在视觉标记上应用自注意力。DeiT[25]通过升级训练策略和蒸馏过程，以数据高效的方式学习视觉变换器。由于ViT/DeiT的所有层都是在相同的较低分辨率下设计的，因此它们可能不适合直接用于密集预测任务[26]。为了解决这个问题，PVT[26]采用了具有四个阶段的ViT金字塔结构，其分辨率从高到低逐渐缩小。Swin[14]将移位窗口方案集成到局部自注意力中，允许具有线性计算复杂度的跨窗口连接。Twins[27]交错使用局部分组注意力和全局子采样注意力，以利用细粒度和长距离全局信息。DaViT[28]进一步提出了具有空间窗口注意力和通道组注意力的双重注意力机制，旨在实现局部细粒度和全局交互。后来，CNN和ViT开始相互交互，产生了许多混合主干网络。特别是，CvT[9]和CeiT[11]分别用卷积升级了自注意力和前馈模块。ViTAE[29]在自注意力模块旁边引入了一个额外的卷积块，其输出被融合并输入到前馈模块中。iFormer[30]将最大池化、卷积和自注意力相结合，以学习高频和低频信息。MaxViT[31]通过将卷积、局部自注意力和空洞全局自注意力集成到单个块中，执行局部和全局空间交互。

2.3 高分辨率表示学习

在探索卷积神经网络（CNN）主干设计中的高分辨率输入方面取得了显著进展。例如，HRNet[32]在整个网络中保持高分辨率分支，并反复融合多分辨率特征。EfficientHRNet[33]进一步将EfficientNet和HRNet统一起来，并设计了一种向下缩放方法来缩小输入分辨率、主干网络和高分辨率特征网络。随后，LiteHRNet[34]通过应用shuffle块和条件通道加权单元提高了HRNet的效率。之后，一些工作开始构建具有高分辨率输入的Transformer主干。其中，HR-NAS[35]引入了一个多分辨率搜索空间，包括CNN和Transformer块，用于多尺度信息和全局上下文建模。最近，HRViT[36]和HRFormer[37]旨在通过在整个网络中保持所有分辨率并执行跨分辨率交互来构建具有多尺度输入的Vision Transformer。然而，这些ViT主干的输入仍然局限于较小的分辨率（即 $224 \times 224$ ）。尽管大多数混合主干可以直接通过更高的分辨率（例如 $384 \times 384$ ）进行放大，但计算成本会变得非常高，计算成本相对于输入分辨率呈二次方增长。相反，我们的工作为使用高分辨率输入的 $\mathrm{CNN}+\mathrm{ViT}$ 混合主干进行放大开辟了一条新途径，同时保持了与小分辨率相同的计算开销优势。

3 预备知识

传统的多阶段Vision Transformer（M-ViT）[14]、[38]、[39]、[40]通常由一个stem层和四个阶段组成，与ConvNets[17]、[21]、[23]（见图2（a））类似。具体来说，stem层首先用于将输入图像（分辨率： $224 \times 224$ ）分割成小块。每个小块被视为一个“视觉标记”，并将进一步输入到后续阶段。每个阶段包含多个Transformer块，每个Transformer块由一个多头自注意力模块（MHA）和一个前馈网络（FFN）组成。通常，在两个阶段之间插入一个下采样层（DS）来合并输入的“视觉标记”（即降低特征图的分辨率）并同时增加其通道维度。最后，采用一个分类器层根据最后一个特征图预测概率分布。
在这里插入图片描述

多头自注意力。多头自注意力旨在捕获视觉标记之间的长距离依赖关系。从技术上讲，设 $\in \mathbb{R}^{n \times D}$ 表示视觉标记的特征，其中 $\times W$ 是视觉标记的数量， $H / W / D$ 分别表示高度/宽度/通道数。输入 $X$ 首先被线性变换为查询 $\in \mathbb{R}^{n \times D}$ 、键 $\in \mathbb{R}^{n \times D}$ 和值 $\in \mathbb{R}^{n \times D}$ ，它们进一步沿着通道维度分解为 $N_{h}$ 个头/部分。将第 $j$ 个头的查询、键和值分别表示为 $Q_{j} \in \mathbb{R}^{n \times D_{h}}$ 、 $K_{j} \in \mathbb{R}^{n \times D_{h}}$ 和 $V_{j} \in \mathbb{R}^{n \times D_{h}}$ （ $D_{h}$ ：每个头的维度），自注意力模块的操作如下：

$\begin{array}{l} \operatorname{MultiHead}(Q, K, V)=\operatorname{Concat}\left(\text { head }_{0}, \ldots, \text { head }_{N_{h}}\right) W^{O}, \\ \text { head }_{j}=\operatorname{Attention}\left(Q_{j}, K_{j}, V_{j}\right), \\ \operatorname{Attention}\left(Q_{j}, K_{j}, V_{j}\right)=\operatorname{Softmax}\left(\frac{Q_{j} K_{j}{ }^{T}}{\sqrt{D_{h}}}\right) V_{j} \end{array}$

其中 $W^{O}$ 是权重矩阵，Concat $(\cdot)$ 是拼接操作。考虑到自注意力的计算成本相对于标记数量呈二次方增长，通常会对键/值进行空间缩减以降低计算/内存开销[8]、[40]。

前馈网络。原始的前馈网络[1]、[2]由两个全连接（FC）层组成，中间有一个非线性激活函数：

$\mathbf{F F N}(X)=\mathbf{F C}(\sigma(\mathbf{F C}(X)))$

其中 $\sigma$ 表示非线性激活函数。受[8]、[40]启发，我们通过添加一个卷积操作来引入二维归纳偏置，从而升级FFN，得到卷积前馈网络（CFFN）。该CFFN的总体操作总结为：

$\operatorname{CFFN}(X)=\mathbf{F C}(\mathbf{D W C o n v}(z)+z), z=\sigma(\mathbf{F C}(X))$

其中DWConv表示深度卷积。

4 高分辨率输入视觉Transformer（HIRI-ViT）

在本文中，我们的目标是设计一个原则性的Transformer结构（即HIRI-ViT），该结构能够以成本效益高的方式扩展具有高分辨率输入的视觉Transformer。为此，我们将典型的四阶段M-ViT升级为新的五阶段ViT家族，其中较早阶段包含双分支构建块，这些构建块将单分支卷积神经网络（CNN）操作分解为两个并行CNN分支。这种方法有利于针对高分辨率输入定制计算开销。图2（b）展示了我们的HIRI-ViT的总体架构。

4.1 高分辨率茎（Stem）层

传统视觉Transformer中茎层的设计可以简要分为两个维度：ViT-stem和Conv-stem [41]、[42]。如图3（a）所示，ViT-stem实现为一个单步长卷积层（例如，步长=4，卷积核大小=7 [40]），其目标是将输入图像划分为块。最近，[10]、[42]揭示，用几个堆叠的 $\times 3$ 卷积（即图3（b）中所示的Conv-stem）替换ViT-stem可以稳定网络优化过程，同时提高峰值性能。Conv-stem会导致典型输入分辨率（例如， $224 \times 224$ ）下的参数和GFLOPs（十亿次浮点运算）略有增加。然而，当输入分辨率显著增加（例如， $448 \times 448$ ）时，Conv-stem的GFLOPs会变得比ViT-stem重得多。为了缓解这些问题，我们通过将单分支Conv-stem重塑为两个并行CNN分支，设计了一个新的高分辨率茎层（图3（c）中的HR-stem）。这种设计不仅保留了Conv-stem的高模型容量，而且在高分辨率输入下也消耗了有利的计算成本。
在这里插入图片描述

技术上，HR-stem首先利用一个步长卷积（步长=2，卷积核大小=3）像Conv-stem那样对输入图像进行下采样。之后，将下采样后的特征图输入到两个并行分支（即高分辨率和低分辨率分支）中。高分辨率分支包含一个轻量级深度卷积，后跟一个步长卷积。对于低分辨率分支，首先使用步长卷积对特征图进行下采样。然后应用两个卷积（ $\times 3$ 和 $\times 1$ 卷积）来施加归纳偏置。最后，通过聚合两个分支并通过批归一化（BN）进一步对和进行归一化，得到HR-stem的输出。

4.2 高分辨率块

鉴于混合主干网络中前两个阶段的输入分辨率较大，Transformer块的计算成本相对较高。为了解决这个问题，我们用新的高分辨率块（HR块）替换了前两个阶段中的Transformer块，从而在较早阶段实现了对高分辨率输入的成本效益高的编码。具体来说，与HR-stem类似，HR块由两个并行分支组成。轻量级高分辨率分支在高分辨率输入上捕获粗粒度信息，而低分辨率分支则利用更多的卷积操作在低分辨率输入上提取高级语义。图4描绘了HR块的详细架构。
在这里插入图片描述

具体来说，高分辨率分支实现为一个轻量级深度卷积。对于低分辨率分支，首先使用带BN的步长深度卷积（步长=2，卷积核大小=3）对输入特征图进行下采样。然后，在低分辨率特征图上应用前馈操作（即两个全连接层，中间带有激活函数）。之后，通过重复对低分辨率输出进行上采样，并将其与高分辨率输出进一步融合。

4.3 反向残差下采样

在传统的M-ViT中，空间下采样是通过单个带步长的卷积（例如，步长$ = 2 $，卷积核大小$ =3[40]$）实现的，如图5（a）所示。受卷积神经网络（ConvNets）[17]、[43]的启发，我们设计了一个具有两个并行分支的更强大的下采样层，即反向残差下采样（Inverted Residual Downsampling，IRDS）。特别地，对于前两个高分辨率输入阶段，我们采用IRDS-a（图5（b））进行下采样。IRDS-a首先使用带步长的 $\times 3$ 卷积来扩展维度并减小空间尺寸，然后使用 $\times 1$ 卷积来压缩通道维度。对于最后两个下采样层，我们利用IRDS-b（图5（c）），它类似于反向残差块[44]。不同之处在于，我们仅在第一个卷积之后应用归一化和激活操作。注意，我们添加了额外的下采样捷径来稳定训练过程。
在这里插入图片描述

4.4 块归一化

卷积神经网络（ConvNets）[17]、[21]通常使用批量归一化（Batch Normalization，BN）来稳定训练过程。BN还可以合并到卷积操作中，以加速推理。相比之下，视觉Transformer骨干网络倾向于使用层归一化（Layer Normalization， $\mathbf{L N}$ ）来规范化特征。 $\mathbf{L N}$ 对于小批量训练的密集预测任务（例如，目标检测和语义分割）更为友好，因为它与批量大小无关。与 $\mathbf{B N}$ 相比， $\mathbf{L N}$ 还可以带来略好的性能[23]。然而，对于高分辨率输入， $\mathbf{L N}$ 会导致更高的计算成本。因此，我们为高分辨率输入的前三个阶段使用BN，而为低分辨率输入的最后两个阶段应用 $\mathbf{L N}$ 。此外，我们还用 $\mathbf{B N}$ 替换了CFFN块中的 $\mathbf{L N}$ 。这样做可以在保持性能的同时，将推理速度提高 $7.6\%$ 。

4.5 EMA蒸馏

在训练过程中，指数移动平均（EMA）[58]已被广泛用于稳定和改善卷积神经网络（ConvNets）[13]和视觉Transformer（ViT）[25]的训练过程。然而，传统EMA中的信息传递是单向的，即教师网络基于学生网络的参数通过EMA进行更新，从而导致次优解。为了触发教师网络和学生网络之间的双向信息传递，我们提出了一种新的EMA蒸馏策略来训练HIRI-ViT。EMA蒸馏还利用从教师网络学习到的概率分布来指导学生网络的训练。与传统的知识蒸馏[25]不同，我们的EMA蒸馏不依赖于任何额外的大规模预训练网络。

在技术上，给定一对训练样本 $\left(x_{a}, y_{a}\right)$ 和 $\left(x_{b}, y_{b}\right)$ ，通过Cutmix/Mixup生成新的训练样本 $(\tilde{x}, \tilde{y})$ ，然后将其输入到学生网络 $\mathcal{F}^{s}$ 中进行网络优化。以Cutmix为例，新的样本 $(\tilde{x}, \tilde{y})$ 可以生成如下：

$\begin{array}{l} \tilde{x}=M \odot x_{a}+(1-M) \odot x_{b} \\ \tilde{y}=\lambda y_{a}+(1-\lambda) y_{b}, \lambda=\frac{\sum M}{H W} \end{array}$

其中， $\in\{0,1\}^{H \times W}$ 表示矩形掩码， $\odot$ 表示逐元素相乘。在EMA蒸馏中，我们将原始样本 $x_{a}$ 和 $x_{b}$ 输入到教师网络 $\mathcal{F}^{t}$ 中（移除了最后一个特征图上的平均池化操作），分别得到概率分布图 $P_{a}$ 和 $P_{b}$ 。接下来，我们为生成的样本 $\tilde{x}$ 分配一个混合目标标签：

$\tilde{P}=M \odot P_{a}+(1-M) \odot P_{b}, \hat{y}=\operatorname{AvgPool}(\tilde{P})$

其中，AvgPool表示沿空间维度使用平均池化操作。之后，我们将Cutmix和教师网络生成的两个目标标签结合起来： $\overline{y}=\alpha \tilde{y}+(1-\alpha) \hat{y}$ ，其中 $\alpha$ 是权衡参数。最后，在训练过程中，我们将混合样本 $(\tilde{x}, \bar{y})$ 输入到学生网络 $\mathcal{F}^{s}$ 中。通过这种方式，额外利用了来自教师网络的知识来促进学生网络的学习。

4.6 架构细节

表1详细列出了我们HIRI-ViT系列的架构。遵循现有CNN+ViT混合骨干网络[14]、[26]的基本网络配置，我们构建了三种不同模型尺寸的HIRI-ViT变体，即HIRIViT-S（小型）、HIRI-ViT-B（基础型）和HIRI-ViTL（大型）。具体而言，HIRIViT的整体架构由一个HR-stem层和五个阶段组成。对于前两个具有高分辨率输入的阶段，我们用轻量级的高分辨率块替换了传统的Transformer块，以避免巨大的计算开销。对于第三阶段，我们仅使用CFFN块来处理中分辨率特征图。与传统的Vision Transformer类似，我们在最后两个具有低分辨率输入的阶段中使用了Transformer块。对于每个阶段 $i$ ， $E_{i}$ 、 $C_{i}$ 和 $H D_{i}$ 分别表示前馈层的扩展比、通道维度和头数。
在这里插入图片描述

5 实验

我们在四个视觉任务上评估了我们的HIRI-ViT：图像分类、目标检测、实例分割和语义分割。特别是，HIRI-ViT首先在ImageNet-1K[59]上从头开始训练，用于图像分类任务。接下来，我们对预训练的HIRI-ViT进行微调，以执行其余三个下游任务：在COCO[60]上进行目标检测和实例分割，以及在ADE20K[61]上进行语义分割。

5.1 在ImageNet-1K上的图像分类

设置。ImageNet-1K数据集包含128万张训练图像和5万张验证图像，涵盖1000个对象类别。在训练过程中，我们采用了[14]、[40]中的常见数据增强策略：随机裁剪、随机水平翻转、Cutmix[65]、Mixup[66]、Random Erasing[67]和RandAugment[68]。整个网络通过AdamW[69]在8个V100 GPU上进行优化，包括300个训练周期，使用余弦衰减学习率调度器[70]和5个周期的线性预热。批量大小、初始学习率和权重衰减分别设置为1024、0.001和0.05。我们在ImageNet1K验证集上报告了Top-1/5准确率，并在ImageNet V2匹配频率测试集上报告了Top-1准确率（即V2 Top-1），如[25]所示。
在这里插入图片描述

性能比较。表2展示了我们的HIRI-ViT系列与现有CNN/ViT骨干网络的性能比较。值得注意的是，所有基线模型都使用典型分辨率输入（ $224 \times 224$ ），而我们的HIRI-ViT系列则使用高分辨率输入（ $448 \times 448$ ）扩展了Vision Transformer。总体而言，在每个组的可比计算成本下，我们的HIRI-ViT（ $448 \times 448$ ）在所有模型尺寸上相对于最先进的骨干网络都实现了持续的性能提升。特别地，对于大型模型尺寸（GFLOPs超过11.7的骨干网络），我们的HIRI-ViT-L（ $448 \times 448$ ）的Top-1准确率为85.7%，比最佳竞争对手MaxViT-L（85.2%）高出0.5%的绝对性能增益。尽管HIRI-ViT-L的输入分辨率显著高于MaxViT-L，但我们的HIRI-ViT-L（ $448 \times 448$ ）所需的GFLOPs却少于MaxViT-L，并且几乎将吞吐量翻倍，表明了更快的推理速度优势。这些结果清楚地表明，我们的HIRI-ViT在性能和计算成本之间实现了更好的平衡，特别适用于高分辨率输入。还值得注意的是，当使用典型分辨率输入（ $224 \times 224$ ）时，我们的每个模型尺寸的HIRI-ViT与最先进的骨干网络相比都实现了可比的性能，同时要求的计算成本显著降低。例如，在大型模型尺寸组中，我们的HIRI-ViT-L（ $224 \times 224$ ）的Top-1准确率为85.3%，对应的吞吐量为每秒660张图像，这远远快于最佳竞争对手MaxViT-L（Top-1准确率：85.2%，吞吐量：每秒241张图像）。这些结果再次证实了我们的HIRI-ViT具有成本效益的设计。
在这里插入图片描述

更高分辨率下的性能比较。表3展示了我们的HIRI-ViT系列与其他具有更大输入图像尺寸的最先进视觉骨干网络的比较。对于这个具有更高分辨率输入（ $768 \times 768$ ）的升级版HIRI-ViT，我们在8个V100 GPU上采用了AdamW优化器[69]，动量设置为0.9，初始学习率设置为 $1.0 e^{-5}$ ，权重衰减设置为 $1.0 e^{-8}$ 。优化过程包括30个训练周期，使用余弦衰减学习率调度器[70]。同样，对于每个具有可比计算成本的组，我们的HIRI-ViT在更高分辨率下与其他视觉骨干网络相比始终获得性能增益。这些结果清楚地验证了我们提出的针对高分辨率输入定制的五阶段ViT骨干网络的有效性。这种设计创新地将典型的CNN操作分解为并行的高分辨率和低分辨率分支，因此在设置更高分辨率输入时仍能保持良好的计算成本。

5.2 在COCO上的目标检测与实例分割

设置。我们在COCO数据集上执行目标检测和实例分割任务。我们采用[14]、[40]中的标准设置，并在COCO-2017训练集（约118K张图像）上训练所有模型。最终，在COCO-2017验证集（5K张图像）上评估学习到的模型。我们使用两种主流检测器（RetinaNet[72]和Mask R-CNN[73]）进行目标检测和实例分割。每个检测器中的主要卷积神经网络（CNN）主干被替换为我们的HIRI-ViT系列（最初在ImageNet 1K上进行预训练）。所有其他新添加的层都用Xavier[74]进行初始化。我们通过AdamW优化器[69]在8个V100 GPU上对检测器进行微调（批量大小：16）。对于RetinaNet和Mask R-CNN，我们采用标准 $\times$ 训练计划（12个周期）。每张图像的较短边被调整为1600像素，而较长边不超过2666像素。对于目标检测，我们在另外四种目标检测方法上进行了实验：Cascade Mask R-CNN[75]、ATSS[76]、GFL[77]和Sparse RCNN[78]。遵循[14]、[40]，使用具有多尺度策略的 $\times$ 计划（36个周期）进行训练。输入图像的大小被随机调整，保持较短边在[960, 1600]范围内，而较长边被强制小于2666像素。我们报告了不同交并比（IoU）阈值和三种不同物体尺寸（即小 $\left(A P_{S}\right)$ 、中 $\left(A P_{M}\right)$ 、大 $\left(A P_{L}\right)$ ）下的平均精度（ $A P$ ）分数。对于实例分割任务，报告了边界框和掩码的 $A P$ 分数（ $A P^{b}$ ， $A P^{m}$ ）。
在这里插入图片描述

性能比较。表4总结了COCO基准测试中，具有不同主干的RetinaNet和Mask R-CNN的目标检测和实例分割性能。我们的HIRI-ViT-S和HIRI-ViT-B在每个组中，以可比的计算成本，在所有指标上始终展现出比其他主干更好的性能。具体来说，基于RetinaNet和Mask RCNN检测器，HIRI-ViT-S分别比最佳竞争对手ScalableViT-S高出 $\%(A P)$ ，比Ortho-S高出 $\%\left(A P^{m}\right)$ 。同时，HIRI-ViT-S的输入分辨率是ScalableViT-S的两倍，而它们的参数数量和GFLOPs却相似。这明确验证了通过我们的设计在下游任务中扩展Vision Transformer的优越泛化能力。表5进一步展示了在COCO上，不同主干下四种额外目标检测器的性能。同样，HIRI-ViT-S对于每个目标检测器都相对于其他基线带来了持续的性能提升。
在这里插入图片描述

5.3 ADE20K上的语义分割

设置。接下来，我们在ADE20K上评估HIRI-ViT的语义分割性能。该数据集涵盖150个语义类别，包含20,000张训练图像、2,000张验证图像和3,000张测试图像。在这里，我们遵循[14]，使用UPerNet[79]作为基础模型，其中CNN主干被替换为我们的HIRI-ViT。整个网络通过AdamW优化器[69]在8个V100 GPU上进行160K次迭代训练。我们使用具有1,500次迭代线性预热的线性学习率衰减调度器进行优化。批量大小、权重衰减和初始学习率分别设置为16、0.01和0.00006。我们采用标准的数据增强方法：随机水平翻转、随机光度失真以及在[0.5,2.0]比例范围内随机重新缩放。为了公平比较，所有其他超参数和检测头均按照Swin[14]的设置进行配置。
在这里插入图片描述

性能比较。表6详细列出了ADE20K验证集上不同主干用于语义分割的性能。与在目标检测和实例分割下游任务中的观察结果类似，我们的HIRI-ViT-S和HIRI-ViT-B在每个组中，以可比的计算成本，获得了最高的平均交并比（mIoU）分数。具体来说，在相同的UPerNet基础模型下，HIRI-ViT-S将HRViT-b2的mIoU分数提高了 $\%$ ，这再次证明了我们的提议的有效性。

5.4 消融研究

在本节中，我们首先阐述如何构建一个具有四个阶段的强大多阶段视觉Transformer（ $\mathrm{M}-\mathrm{ViT}$ ），它作为基准模型。然后，我们将基准模型扩展到五个阶段，并研究HIRI-ViT中的每个设计如何影响ImageNet-1K上图像分类任务的整体性能。表7通过逐步将每个设计纳入基准模型，总结了不同消融运行的性能。
在这里插入图片描述

M-ViT。我们从基准模型开始，即具有四个阶段的多阶段视觉Transformer（M-ViT）。M-ViT的整体架构与PVT[26]相似，由一个ViT主干层（stem layer）和四个阶段组成。每个阶段包含一堆Transformer块。每个Transformer块由多头注意力（MHA）和前馈神经网络（FFN）组成。在前两个阶段，MViT利用步幅卷积作为空间缩减来下采样键和值，而最后两个阶段则不使用任何空间缩减操作。在两个阶段之间，利用单个步幅卷积进行空间下采样，同时增加通道维度。采用层归一化（ $\mathbf{L N}$ ）进行特征归一化。如表7（第1行）所示，M-ViT的top-1准确率达到 $82.7\%$ 。

FFN $\rightarrow$ CFFN。第2行通过将每个FFN与额外的深度卷积（即CFFN）集成来升级基准模型。通过这种方式，CFFN能够利用归纳偏置，从而提高性能（ $82.9\%$ ）。

移除MHA。接下来，我们从[53]中获得灵感，并移除了前两个阶段中的多头自注意力（MHA）。同时，也扩大了CFFN中的通道扩展维度。如表7（第3行）所示，这次消融运行保持了性能，同时减少了GFLOPs和参数数量。

$\mathbf{L N} \rightarrow \mathbf{B N}$ 。然后，我们在前两个阶段和每个CFFN块中将层归一化（ $\mathbf{L N}$ ）替换为批归一化（ $\mathbf{B N}$ ）（第4行）。top-1准确率略微提高到 $83.0\%$ ，这表明对于包含卷积操作的块，BN比 $\mathbf{L N}$ 更适合。

ViT主干 $\rightarrow$ Conv主干。当我们用Conv主干替换ViT主干（第5行）时，top-1准确率进一步提高到 $83.4\%$ 。这一观察结果证明了Conv主干的优点，它在早期视觉处理中注入了一小部分归纳偏置，从而稳定了优化并提高了峰值性能。

IRDS。之后，我们在每两个阶段之间应用倒置残差下采样（IRDS）（第6行）。具有四个阶段的M-ViT的最终版本实现了 $83.6\%$ 的top-1准确率，这一成绩具有竞争力，甚至超过了大多数现有的ViT主干网络。

分辨率 $\mathbf{224} \boldsymbol{\rightarrow 448}$ 。接下来，我们直接将该四阶段结构的输入分辨率从 $224 \times 224$ 扩大到 $448 \times 448$ （第7行）。这次消融运行带来了明显的性能提升，但GFLOPs从4.7急剧增加到21.5。这一观察结果与现有的四阶段ViT架构（如PVT和Swin Transformer）一致，在这些架构中，计算成本随着输入分辨率的增大而呈二次方增长。

四阶段 $\rightarrow$ 五阶段。此外，我们通过增加一个额外阶段来进一步下采样高分辨率输入，从而扩展了四阶段消融运行（第7行）。这种五阶段结构（第8行）在高分辨率输入（ $448 \times 448$ ）下显著降低了GFLOPs，同时Top-1准确率下降至 $84.0\%$ ，但仍然优于另一个在 $224 \times 224$ 输入下的四阶段消融运行（第6行）。这些结果基本证实了我们的五阶段结构的有效性，该结构旨在为高分辨率输入寻求更好的成本效益平衡。

Conv主干 $\rightarrow$ HR主干。然后，我们将Conv主干替换为我们的HR主干（重塑为双分支设计）。如表7（第9行）所示，GFLOPs明显下降（5.1），但Top-1准确率仍然保持不变（ $84.0\%$ ）。

HR块。之后，我们在前两个阶段中将每个CFFN替换为两个堆叠的HR块（第10行）。请注意，对于小尺寸（GFLOPs： $\sim 5.0$ ）来说，ImageNet上的Top-1准确率几乎已经饱和（ $\sim 84.0\%$ ），因此很难引入大幅改进。然而，我们的HR块仍然成功地在Top-1和Top-5准确率上实现了 $0.1\%$ 的性能提升，同时略微降低了计算成本，这再次验证了通过我们并行的高分辨率和低分辨率分支进行成本效益高的编码的优势。

EMA蒸馏。最后，第11行是我们经过额外EMA蒸馏优化的HIRI-ViT-S的完整版本，达到了最佳的Top-1准确率（ $84.3\%$ ）。

5.5 五阶段中每种块的影响

在这里，我们进一步进行了额外的消融研究，以全面考察五阶段中每种块（HR/CFFN/Transformer块）的影响。表8通过用不同块构建五阶段来展示HIRI-ViT不同消融变体的性能。具体来说，第1-3行的结果表明，在最后三个阶段中用Transformer块替换更多的HR块通常可以带来性能提升，但计算成本也会更高。例如，在第三阶段使用Transformer块（第3行）获得了微小的性能提升（Top-1准确率提升 $0.1\%$ ），但GFLOPs明显增加。这些结果基本验证了Transformer块在低分辨率输入的后阶段的有效性，但Transformer块自然会导致巨大的计算开销，特别是对于前阶段的高分辨率输入。此外，我们用CFFN块替换Transformer块来处理第三阶段的中分辨率输入（第4行）。这种设计很好地降低了GFLOPs，同时保持了Top-1和Top-5准确率，这证明了在HIRI-ViT中计算成本和性能之间的最佳权衡。

在这里插入图片描述

5.6 计算成本与准确率

图6进一步展示了我们的HIRI-ViT与其他最先进的视觉主干网络在计算成本（即(a) GFLOPs，(b) 模型参数数量和© 推理时间）方面的准确率曲线。如图所示，我们的HIRI-ViT主干网络的曲线始终位于其他视觉主干网络之上。也就是说，我们的HIRI-ViT主干网络在计算成本-准确率权衡方面优于现有的视觉主干网络。

5.7 扩展到其他主干网络

在这里，我们报告了通过利用我们的提议，以更高分辨率的输入（ $224 \times 224$ 到 $448 \times 448$ ）扩展三种不同的视觉主干网络（HRNet、PVTv2、DaViT）的性能/计算成本。如表9所示，在HIRI-ViT中，我们采用五阶段和双分支设计的结构，始终能为每个视觉主干网络带来显著的性能提升，同时保持较低的计算成本。这些结果进一步验证了我们采用五阶段和双分支设计的结构在扩展高分辨率输入的视觉主干网络方面的通用性。
在这里插入图片描述

6 结论

在本文中，我们为高分辨率输入设计了一种新的五阶段ViT主干网络，即HIRI-ViT，该网络创新地将典型的CNN操作分解为并行的高分辨率和低分辨率分支。通过这种有原则的五阶段和双分支设计，我们的HIRI-ViT能够以成本效益高的方式扩展Vision Transformer主干网络以处理高分辨率输入。我们在ImageNet-1K（图像分类）、COCO（目标检测和实例分割）和ADE20K数据集（语义分割）上进行了大量实验，以验证我们的HIRI-ViT相对于竞争性的CNN或ViT主干网络的有效性。

尽管有这些发现，但仍然存在未解决的问题。虽然我们的五阶段和双分支设计结构明显提高了扩展Vision Transformer的效率，但我们观察到，当采用六阶段结构时，性能/计算成本的提升并不明显。此外，如何扩展高分辨率输入的Video Vision Transformer仍然是一个主要挑战。