【TGRS2024】Pick of the Bunch: Detecting Infrared Small Targets Beyond Hit-Miss Trade-Offs via Selective Rank-Aware Attention
论文:https://arxiv.org/abs/2408.03717
代码:https://github.com/GrokCV/SeRankDet
作者指出来当前红外小目标检测方法存在三个问题:(1) 卷积层不敏感:卷积层缺乏红外小目标细粒度细节所需的灵敏度,导致目标和复杂背景之间的区分不足。(2) 线性挤压计算:传统的注意力机制利用类似于SENet和PVT中的池化操作,会将目标特征与背景噪声合并,稀释了目标特征。(3) 静态特征融合:不能动态地整合显著特征,不足以区分真实目标和虚警。
作者提出的方法,类似于挑剔的鉴赏家,“挑选精华”——利用高度敏感的特征提取器来保留即使是最暗淡的目标,同时采用可靠的模块来过滤虚警。picks the bunch 意思是“一批中最好的精华”,在论文是 top-k 注意力。
模型的总体框架如下图所示。可以看出类似一个 encoder-decoder 架构,在 encoder部分,DDC和SeRank 交替处理,在decoder部分,使用 LSFF融合特征。框架包括 DDC,SeRank,LSFF 三个关键模块,分别解决了上述三个问题,下面将分别介绍。
Dilated Difference Convolution (DDC) 该模块可以解决卷积层不敏感问题,结构如下图所示,本质是三种卷积的并行。作者认为可以增强辨别边缘和微妙细节的能力。
Selective Rank-Aware Attention (SeRank) Module 可以解决池化操作稀释目标特征的问题,如下图所示。本质是在Q和K计算时,使用 TOP-K机制进行了降维,这个思想在很多论文里有应用。
Large Selective Feature Fusion (LSFF) 可以解决静态特征融合问题,结构如下图所示。是在特征融合时,采用了 SKNet 的结构,动态调节两个输入特征的权重。
实验部分可以参考作者论文,这里不过多介绍。