《Transformer Scale Gate for Semantic Segmentation》CVPR2023

摘要

论文提出了一种名为Transformer Scale Gate（TSG）的模块，用于优化在语义分割任务中多尺度上下文信息的编码。现有的基于Transformer的分割模型在组合不同尺度的特征时没有进行选择，这可能导致次优尺度的特征降低分割的准确性。TSG利用Vision Transformer中的自注意力和交叉注意力的内在属性来选择尺度。TSG是一个高度灵活的即插即用模块，可以轻松集成到任何基于编码器-解码器的层次化视觉Transformer架构中。通过在Pascal Context和ADE20K数据集上的广泛实验，证明了所提特征选择策略的一致增益。

拟解决的问题

语义分割任务需要识别图像中的所有对象（包括“事物”和“物质”），并确定它们的类别。现有的基于Transformer的方法通常使用单一尺度的特征来处理语义分割问题，但这种方法难以处理不同大小的多个对象。为了解决这个问题，需要一种能够有效编码多尺度上下文信息并选择合适尺度特征的方法。

创新之处

提出了Transformer Scale Gate（TSG）模块，利用Vision Transformer中的自注意力和交叉注意力来选择多尺度特征。
TSG是一个轻量级的模块，可以通过简单的线性层实现，易于集成到现有的Transformer架构中。
扩展了TSG到编码器（TSGE）和解码器（TSGD）中，分别利用自注意力和交叉注意力指导来优化多尺度特征。

方法论

基本结构包括编码器和解码器。编码器由多个多头自注意力模块组成，用于捕获图像块的特征。解码器则包含自注意力模块和交叉注意力模块，用于生成分割掩码。

Transformer Scale Gate (TSG)

TSG 的设计目的是解决现有 Transformer 模型在处理多尺度对象时面临的挑战。由于不同对象可能在不同的尺度上具有不同的显著性，因此需要一种机制来选择最适合每个图像块的特征尺度。

整合注意力图：将编码器和解码器中所有头的自注意力和交叉注意力图整合为单一的注意力图 𝐴。这是通过连接所有头的注意力图并使用线性层来实现的。
尺度门生成：通过一个多层感知机（MLP）和层归一化（Layer Normalization）处理整合后的注意力图 𝐴，然后使用 GELU 激活函数来预测尺度门 $\widetilde{G}$ 。接着，通过 softmax 函数在尺度维度上对 $\widetilde{G}$ 进行归一化，得到最终的尺度门矩阵 𝐺。尺度门是一个矩阵，其中的每个元素 $g_{n,s}$ 表示第 𝑛 个图像块在第 𝑠 个尺度上的重要性权重。
尺度门应用：在编码器和解码器中，使用 TSG 生成的尺度门来加权多尺度特征图，从而为每个图像块选择最合适的特征尺度。