参考:https://www.bilibili.com/video/BV1md4y1s7nW/?spm_id_from=333.788&vd_source=156234c72054035c149dcb072202e6be
补充:decoder更关注边缘特征
补充:
spatial pos.enc.:空间位置编码。包含encoder和decoder的空间位置编码
output pos.enc.:输出位置编码。learned at input:只给decoder第一个层位置编码,learned at attention:decoder的每层都给位置编码。
补充:FFN是全连接+dropout+全连接
q=k=backbone输出的图像特征+位置编码
v=src=backbone输出的图像特征
encoder和decoder各有6层。loss设计了两种方式,第一种只取decoder最后一层算loss,第二种取decoder每一层算loss。