您的位置:首页 > 娱乐 > 明星 > 新闻发布会的工作环节包括_华为商城_谷歌搜索引擎镜像入口_短视频培训课程

新闻发布会的工作环节包括_华为商城_谷歌搜索引擎镜像入口_短视频培训课程

2025/3/4 22:31:42 来源:https://blog.csdn.net/vV_Leon/article/details/145921007  浏览:    关键词:新闻发布会的工作环节包括_华为商城_谷歌搜索引擎镜像入口_短视频培训课程
新闻发布会的工作环节包括_华为商城_谷歌搜索引擎镜像入口_短视频培训课程

文章目录

    • 检测模式而非整个图像
    • 感受野(Receptive Field)
    • 模式可能会出现在图像的不同区域
    • 共享参数(Parameter Sharing)
    • 下采样不影响模式检测
    • 池化(Pooling)
    • 总结

神经网络有多种架构,其中卷积神经网络常用于图像分类任务,图像分类需要将图像作为模型输入,对于机器而言,可以将图像描述为三维张量(Tensor 理解为维度大于2的矩阵).一张图片就是一个三维张量,分别代表长,宽及通道数目

彩色图像的每个像素可以用RGB的组合表示,这三个颜色就称为图像的三个色彩通道(Channel),这种颜色描述方式称为 RGB 色彩模型, 常用于在屏幕上显示颜色.采用别的模型是就为对应模型色彩数目的通道

对于网络来说,输入通常是向量而非张量,因此通常会将张量拉直为向量作为网络的输入,而这个向量里面每一维里面存的数值是某一个像素在某一个通道下的颜色强度

image-20250227215647262

图像有大有小,而且不是所有图像尺寸都是一样的.常见的处理方式是把所有图像先调整成相同尺寸,再“丢”到图像的识别系统里面.以下的讨论中,默认模型为 100像素 × 100像素

image-20250227215817117

如图,如果把向量当作全连接网络的输入,特征向量会过长,若第一层有1000个神经元,需要的权重为1000×100×100×3.更多的参数虽为模型带来了更好的弹性和能力,蛋也增加了过拟合的风险.同时,在做图像识别时,考虑到图像本身的特性,并不一定需要全连接,我们需要正对图像识别任务对图像本身的特性进行观察.

模型的输出应该是什么呢?模型的目标是分类,因此可将不同的分类结果表示成不同的 独热向量 y′.在这个独热向量里面,类别对应的值为 1,其余类别对应的值为 0.例如,我们 规定向量中的某些维度代表狗、猫、树等分类结果,那么若分类结果为猫,则猫所对应的维度 的数值就是 1,其他东西所对应的维度的数值就是 0

image-20250227220355250

独热向量 y′ 的长度决定了模型可以识别出多少不同种类的东西.

检测模式而非整个图像

人在判断一个物体的时候,往往也是抓最重要的特征.看到这些特征以后,就会直觉地 看到了某种物体.对于机器,也许这是一个有效的判断图像中物体的方法,这些特征称为模式(pattern)

image-20250227220724951

一些负责识别鸟嘴的神经元只需要把图像的一小部分输入就足以让它们检测鸟嘴的模式是否出现,而不需要将整张图片输入.

感受野(Receptive Field)

卷积神经网络会设定一个区域,即感受野(receptive field),每个神经元都只关心自己的感受野里面发生的事情,感受野是由我们自己决定的

image-20250227221305355

蓝色的神经元的守备范围就是红色正方体框的感受野.这个感受野里面有 3 × 3 × 3 个数值.对蓝色的神经元,它只需要关心这个小范围,不需要在意整张图像里面有 什么东西,只在意它自己的感受野里面,识别模式.

image-20250227221442939

感受野之间可以重叠,不同神经元可以守备同一个神经元.感受野也未必是正方形,其大小根据问题理解设计,甚至一个感受野可以是分割的.通常我们会观察全部通道,只考虑高和宽,将面积称为核大小,常见的感受野设定为核大小为3 × 3

image-20250227221841164

一般同一个感受野会有一组神经元去守备这个范围,比如 64 个或者是 128 个神经元去守备一个感受野的范围,对于整个图片来说,我们需要更多感受野将其覆盖,将这个核移动一个像素,就制造出一个新的感受野,如此将全图覆盖(如果感受野超出图像范围,对于边界地方通常使用零填充),移动的量称为步幅(stride),如此,将全图扫描细化为对一个个感受野的检测.

image-20250227222131056

模式可能会出现在图像的不同区域

鸟嘴作为识别鸟的一个模式可能出现在图片的不同区域,而不同区域对应的感受野由不同神经元守备,那么如果不同的守备范围都要有检测鸟嘴的神经元,参数量会太多了,因此需要做出相应的简化

共享参数(Parameter Sharing)

这个概念就类似于教务处希望可以推大型的课程一样,假设每个院系都需要深度学习相关的课程,没必要在每个院系都开机器学习的课程,可以开一个比较大型的课程,让所有院系的人都可以修课.如果放在图像处理上,则可以让不同感受野的神经元共享参数,也就是做参数共享(parameter sharing)所谓参数共享就是两个神经元的权重完全是一样的.

image-20250227222831800

如图所示,颜色相同,权重完全是一样的,但是上面神经元跟下面神经元守备的感受野是不一样的,即使两个神经元的参数一模一样,它们的输出也不会永远都是一样的,因为它们的输入是不一样的.

image-20250227223229973

每个感受野都有一组神经元在负责守备,比如 64 个神经元,它们彼此之间可以共享参数.使用一样的颜色代表这两个神经元共享一样的参数,所以每个感受野都只有一组参数而已,这些参数称为滤波器(filter).

每个感受野有多个滤波器,每个滤波器负责检测不同的特征,共享参数提高了对同种滤波器的优化效率

下采样不影响模式检测

把一张比较大的图像做下采样(downsampling), 把图像偶数的列都拿掉,奇数的行都拿掉,图像变成为原来的 1/4,但是可能保留了关键信息的同时减少了后续层的计算量,间接起到正则化作业,缓解过拟合,通过多次下采样,后续层能"看到"更大的图像区域,提取更高层次的抽象特征.

image-20250228094421492

池化(Pooling)

汇聚被用到了图像识别中.汇聚没有参数,所以它不是一个层,它里面 没有权重,它没有要学习的东西,汇聚比较像 Sigmoid、ReLU 等激活函数.因为它里面是没 有要学习的参数的,它就是一个操作符(operator),其行为都是固定好的,不需要根据数据学任何东西.

汇聚有很多不同的版本,以最大汇聚(max pooling)为例.最大汇聚在每一组里面选一个代表, 选的代表就是最大的一个

image-20250228094558720

一般在实践上,往往就是卷积跟汇聚交替使用,可能做几次卷积,做一次汇聚.比如两次卷积,一次汇聚.不过汇聚对于模型的性能 (performance)可能会带来一点伤害.假设要检测的是非常微细的东西,随便做下采样,性能 可能会稍微差一点.所以近年来图像的网络的设计往往也开始把汇聚丢掉,它会做这种全卷 积的神经网络,整个网络里面都是卷积,完全都不用汇聚.汇聚最主要的作用是减少运算量, 通过下采样把图像变小,从而减少运算量.随着近年来运算能力越来越强,如果运算资源足够支撑不做汇聚,很多网络的架构的设计往往就不做汇聚,而是使用全卷积

image-20250228095954971

总结

感受野加上参数共享就是卷积层 (convolutional layer),用到卷积层的网络就叫卷积神经网络.卷积神经网络的偏差比较大. 但模型偏差大不一定是坏事,因为当模型偏差大,模型的灵活性较低时,比较不容易过拟合. 全连接层可以做各式各样的事情,它可以有各式各样的变化,但它可能没有办法在任何特定 的任务上做好.而卷积层是专门为图像设计的,感受野、参数共享都是为图像设计的.虽然卷积神经网络模型偏差很大,但用在图像上不是问题.如果把它用在图像之外的任务,就要仔细想想这些任务有没有图像用的特性.

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com