您的位置:首页 > 汽车 > 时评 > 昇思25天学习打卡营第12天|Vision Transformer图像分类

昇思25天学习打卡营第12天|Vision Transformer图像分类

2024/9/20 21:07:10 来源:https://blog.csdn.net/beauthy/article/details/140331600  浏览:    关键词:昇思25天学习打卡营第12天|Vision Transformer图像分类

关于Vision Transformer

Vision Transformer(ViT)结构和工作原理

ViT模型的主体结构是基于Transformer模型的Encoder部分

在这里插入图片描述

  1. 图像分块:ViT首先将输入图像分割成一系列固定大小的patch(例如16x16像素)。然后,每个patch通过线性层转换为固定长度的向量,这些向量将作为Transformer编码器的输入。
  2. 位置嵌入:由于Transformer模型本身不具有处理序列位置信息的能力,ViT引入了可学习的位置嵌入来弥补这一缺陷。位置嵌入是一个与patch嵌入维度相同的向量表,其中每一行代表一个位置向量。通过将位置嵌入与patch嵌入相加,模型能够捕捉到图像中不同位置的信息。
  3. Transformer编码器:ViT模型的核心组件是Transformer编码器,它负责处理经过嵌入的图像块序列。Transformer编码器由多个堆叠的编码器层组成,每个编码器层包含自注意力机制和前馈神经网络。通过多层堆叠,模型能够捕捉到图像中的多层次信息。

Transformer基本原理

Transformer模型:基于Attention机制的编码器-解码器型结构.

在这里插入图片描述
其主要结构为多个Encoder和Decoder模块所组成,其中Encoder和Decoder的详细结构如下:
在这里插入图片描述
Encoder与Decoder由许多结构组成,如:多头注意力(Multi-Head Attention)层,Feed Forward层,Normaliztion层,甚至残差连接(Residual Connection,图中的“Add”)。不过,其中最重要的结构是多头注意力(Multi-Head Attention)结构,该结构基于自注意力(Self-Attention)机制,是多个Self-Attention的并行组成。
所以,理解了Self-Attention就抓住了Transformer的核心。


Attention模块

整体把握Self-Attention的全部过程
在这里插入图片描述
Multi-Head Attention,多头注意力机制就是将原本self-Attention处理的向量分割为多个Head进行处理。
在这里插入图片描述


ViT优势与特点

  1. 全局建模能力:与CNN模型相比,ViT模型摒弃了卷积操作,完全依赖于自注意力机制来处理图像块序列。这种设计使得ViT能够捕捉到图像中的全局信息,并在大规模预训练后在多个图像识别任务中取得优异的结果。
  2. 高效性:在一些实验中,ViT模型在拥有足够多的数据进行预训练时,其表现超过了CNN,并且需要更少的计算资源来训练。
  3. 可扩展性:ViT模型简单且效果好,可扩展性强,成为了Transformer在CV领域的里程碑著作,引爆了后续相关研究。

Tips

Vision Transformer(ViT)是近年来计算机视觉领域的一项重大突破,它将Transformer架构成功引入图像识别任务中,为处理大尺寸图像和长序列数据提供了一种全新的视角。ViT模型通过图像分块、位置嵌入和Transformer编码器等技术手段实现了对图像的全局建模和高效处理,并在多个视觉任务上取得了优异的结果。随着研究的不断深入和技术的发展,ViT模型有望在未来得到更广泛的应用和发展。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com