您的位置:首页 > 游戏 > 游戏 > 公司二次开发好吗_大连市政府信息公开网_搜索_今日nba比赛直播

公司二次开发好吗_大连市政府信息公开网_搜索_今日nba比赛直播

2025/3/10 16:19:30 来源:https://blog.csdn.net/l8947943/article/details/144474585  浏览:    关键词:公司二次开发好吗_大连市政府信息公开网_搜索_今日nba比赛直播
公司二次开发好吗_大连市政府信息公开网_搜索_今日nba比赛直播

论文地址:https://arxiv.org/pdf/2005.12872
代码地址:https://github.com/facebookresearch/detr
相关学习视频:https://space.bilibili.com/94779326/lists?sid=1531941

标题前言:

DETR 是 Facebook 团队于 2020 年提出的基于 Transformer 的端到端目标检测,是Transformer在目标检测的开山之作 – DEtection TRansformer。
相比于传统的RCNN、Fast-RCNN、Faster-RCNN、YOLO系列,DETR有以下几个优点:

  1. 无需NMS后处理2
  2. 无需设定anchor
  3. 高效并行预测。

整个由网络实现端到端的目标检测实现,大大简化了目标检测的 pipeline。DETR在COCO 数据集上效果与 Faster RCNN 相当,在大目标上效果比 FasterRCNN 好,且可以很容易地将 DETR迁移到其他任务例如全景分割。

1. 基本结构

DETR的总体框架如图,分为三个部分,分别是:

  1. 提取图像的特征的backbone
  2. 使用了transformer的编码器解码器
  3. prediction heads:FFN,前馈神经网络给出最后的类别和Box信息的预测

在这里插入图片描述
首先使用传统的卷积神经网络(CNN)主干网络来学习输入图像的二维表示。随后将特征信息加上位置编码送入encoder,这里的encoder进行特征序列构造。在decoder中会首先初始化100个向量(object queries),这些向量通不断学习encoder构造的特征序列,再经过prediction heads将解码器的每个输出嵌入传递给一个共享前馈网络(FFN),该网络会预测检测结果(类别和边界框)或者 “无目标” 类别。

2. 基础的backbone

CNN:图像经过 CNN 学习后,得到 (2048,H/32,W/32) 的输出,然后和 position encoding 相加,输入 transformer-encoder

3. Encoder和Decoder

不同于原始的 transformer ,DETR 在以下方面对其进行修改
1)positional embeding: DETR 的只作用于 encoder 的 Q 和 encoder-decoder K,原始 transformer 作用于所有的 Q、K、V
2)object queries:DETR 的 object queries 一次性全部输入 decoder,而原始 transformer 是通过 shifted right 一个一个地移动
在这里插入图片描述
借用一张知乎对比图:
在这里插入图片描述
Object queries 是 N 个 learnable embedding,训练刚开始时可以随机初始化,比如 transformer-encoder 输出是 (B, N’, C),则 Object queries 生成后得到大小为 (B, N, C)数,相当于用 Object queries 去查询 transformer-encoder 输出的目标类别和 box,N 一般取 100
训练时随机初始化 Object queries,训练过程中学习这个 embedding,训练完成后,embedding 确定下来,后续推理直接使用

4. FNN

prediction heads是DETR的分类器与回归器,其实就是对decoder提取出来的100个目标进行FFN操作,FFN采用全连接,经过FFN分别得到种类和边界框参数,将100个预测结构object predictions和真实框ground truth box之间通过匈牙利算法进行二分匹配,一个真实框只匹配一个预测结果,其它的预测结果作为背景进行拟合。最后通过反向传播来优化模型参数。

5. loss和匈牙利算法

集合到集合的预测看起来非常直接,但是在训练的过程就会遇到一个问题,就是如何把预测出来的100个框与ground truth做匹配,然后得到损失。DETR就非常暴力,直接利用pd(predicttion)与gt(ground truth)按照最小权重做一对一匹配,剩余的框全部当做背景处理。

6. 总结

在本文阅读过程中,写作其实还是很丝滑的,自己来回阅读,大致看懂了一些,剩下翻阅博客继续阅读。

  1. 目标检测 DETR(2020)
  2. 目标检测 Deformable DETR(2021)详细解读
  3. DETR:End-to-End Object Detection with Transformers
  4. 目标检测Python代码 目标检测detr

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com