摘要
论文提出了一种名为Transformer Scale Gate(TSG)的模块,用于优化在语义分割任务中多尺度上下文信息的编码。现有的基于Transformer的分割模型在组合不同尺度的特征时没有进行选择,这可能导致次优尺度的特征降低分割的准确性。TSG利用Vision Transformer中的自注意力和交叉注意力的内在属性来选择尺度。TSG是一个高度灵活的即插即用模块,可以轻松集成到任何基于编码器-解码器的层次化视觉Transformer架构中。通过在Pascal Context和ADE20K数据集上的广泛实验,证明了所提特征选择策略的一致增益。
拟解决的问题
语义分割任务需要识别图像中的所有对象(包括“事物”和“物质”),并确定它们的类别。现有的基于Transformer的方法通常使用单一尺度的特征来处理语义分割问题,但这种方法难以处理不同大小的多个对象。为了解决这个问题,需要一种能够有效编码多尺度上下文信息并选择合适尺度特征的方法。
创新之处
- 提出了Transformer Scale Gate(TSG)模块,利用Vision Transformer中的自注意力和交叉注意力来选择多尺度特征。
- TSG是一个轻量级的模块,可以通过简单的线性层实现,易于集成到现有的Transformer架构中。
- 扩展了TSG到编码器(TSGE)和解码器(TSGD)中,分别利用自注意力和交叉注意力指导来优化多尺度特征。
方法论
基本结构包括编码器和解码器。编码器由多个多头自注意力模块组成,用于捕获图像块的特征。解码器则包含自注意力模块和交叉注意力模块,用于生成分割掩码。
Transformer Scale Gate (TSG)
TSG 的设计目的是解决现有 Transformer 模型在处理多尺度对象时面临的挑战。由于不同对象可能在不同的尺度上具有不同的显著性,因此需要一种机制来选择最适合每个图像块的特征尺度。
-
整合注意力图:将编码器和解码器中所有头的自注意力和交叉注意力图整合为单一的注意力图 𝐴。这是通过连接所有头的注意力图并使用线性层来实现的。
-
尺度门生成:通过一个多层感知机(MLP)和层归一化(Layer Normalization)处理整合后的注意力图 𝐴,然后使用 GELU 激活函数来预测尺度门 。接着,通过 softmax 函数在尺度维度上对 进行归一化,得到最终的尺度门矩阵 𝐺。尺度门是一个矩阵,其中的每个元素表示第 𝑛 个图像块在第 𝑠 个尺度上的重要性权重。
-
尺度门应用:在编码器和解码器中,使用 TSG 生成的尺度门来加权多尺度特征图,从而为每个图像块选择最合适的特征尺度。
Transformer Scale Gate in Encoder (TSGE)
为了改善编码器中多尺度特征的处理,使其能够更有效地捕捉到不同尺寸对象的特征。通过自注意力机制的指导,TSGE 能够细化和优化这些特征,从而提高语义分割的准确性。
Transformer Scale Gate in Decoder (TSGD)
在语义分割中,解码器负责将编码器提取的特征转换为最终的分割结果。由于不同对象可能在不同尺度上表现不同,因此需要一种机制来选择和整合不同尺度的特征,以确保分割结果的准确性和细节。
Query Token 的生成和使用:
- 初始化:在解码器的开始,Query Token通常被初始化为一组可学习的向量,每个向量对应一个类别或对象实例。
- 自注意力:在解码器的自注意力模块中,Query Token参与计算,以学习不同类别或实例之间的相互关系。
- 交叉注意力:在交叉注意力模块中,Query Token与编码器的输出特征进行交互,以获得更丰富的上下文信息。
- 特征融合:通过交叉注意力模块,Query Token融合了来自编码器的多尺度特征,生成细化的特征表示。
- 最终预测:经过解码器的多个阶段,最终每个Query Token会形成一个类别嵌入向量,这些向量与编码器输出的特征图相结合,用于生成最终的语义分割结果。
结论
文章提出的TSG模块通过利用Vision Transformer的内在属性来有效地选择多尺度特征,以提高语义分割的准确性。TSG是一个简单的基于Transformer的模块,可以作为即插即用组件在Transformer分割网络中使用。通过在两个语义分割数据集上的广泛实验,证明了所提方法的有效性。