计算机眼中的图片
图片中一个框是由多个像素点组成,彩色图片一般会有R,G,B三个通道,像素点是由数值表示,每个数字范围从0到255,
下图所示的图片是一张248像素宽度,400像素高度的图片,并且有RGB三通道,那么这张图片可以用3x248x400个数字表示,每个数字范围从 0到255,模型的任务就是接受这些数字,然后预测出这些数字代表的标签(label)。0为黑色,255为白色。
数据驱动方法
由于图片实际上是由数值表示,对于同一物体发生某些变化数值可能也会发生一些变化,对图片的分类就可能会出现失误,以下常见的图片变化,也是当前面对的挑战:
我们不会去设计一个特定的算法来解决这样的问题,而是将大量带有标签的数据送给一个模型,让模型自己学习,这种方式就成为数据驱动方法,因为它依赖于一个带有标签的数据集合。
https://fangkaipeng.com/?paged=2&tag=cs231n
线性分类
在全连接层实现
1.对于W的理解
图像在进行线性分类的时候,首先要进行维度上的压缩,若是单个数据将其从三维压缩为1维,在对其加入权重和偏置进行运算,对于权重参数矩阵W,每一行可看作是某个类别的模板或专属分类器,能使属于该类别的数据进行运算后得分高。
2.信息量
一个信息所描述的事件发生的概率越小,则这件事情发生了所带来的信息量也就越大,也就是说信息量的大小和事件发生的概率成反比。
对于事件 x 信息量的公式定义为:
3.熵
熵的本质其实就是对于一个事件信息量的期望。
假设对于同一个随机变量 x 有两个单独的概率分布p(x)和q(x),则交叉熵为:
以上概率分布可以理解为有多个数,所有数的取值范围都在【0,1】之间,且所有数的总和等于1
交叉熵取值表示用q(x)表示p(x)的困难程度,实际上的意思就是看p(x)能否用q(x)表示,若能表示则说明预测值接近于真实值,所以用交叉熵作为损失函数时,若最后得出来的值小则说明用q(x)表示p(x)不困难,即预测值接近真实值
SVM与softmax的比较:
实质上不同在于SVM直接将得分输出,使用softmax后会将得分输出变为一个概率分布,得到概率分布后计算损失就可以用交叉熵。