教你如何做网络营销推广_网站必须公安备案吗_多少关键词排名优化软件_成都网络营销推广

KNN

工作机制

k-近邻算法的工作机制可以分为两个主要阶段：训练阶段和预测阶段。

训练阶段

在训练阶段，k-近邻算法并不进行显式的模型训练，而是简单地存储训练数据集。每个样本由特征向量和对应的标签组成。此阶段的主要任务是准备好数据，以便在预测阶段进行有效的相似性比较。

预测阶段

在预测阶段，k-近邻算法的工作流程如下：

输入待分类样本：接收一个待分类的样本，其特征向量为 xx。
计算距离：计算待分类样本与训练集中所有样本之间的距离。常用的距离度量方法包括欧氏距离、曼哈顿距离和闵可夫斯基距离。
选择k个最近邻：根据计算得到的距离，选择距离待分类样本最近的k个训练样本。
投票机制：
- 分类任务：对这k个样本的类别进行投票，选择出现次数最多的类别作为预测结果。
- 回归任务：对这k个样本的值进行平均，得到预测值。

距离度量函数

距离度量是k-近邻算法的关键部分，影响着算法的性能和预测结果。以下是几种常用的距离度量方法：

欧氏距离：最常用的距离度量，适用于连续特征。计算公式为： $d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}$
曼哈顿距离：适用于特征值较小或特征之间差异较大的情况。计算公式为： $d(x,y)=\sum_{i=1}^n|x_i-y_i|$
闵可夫斯基距离：是欧氏距离和曼哈顿距离的推广，参数p决定了距离的类型。计算公式为： $d(x,y)=(\sum_{i=1}^n|x_i-y_i|^p)^{\frac{1}{p}}$
选择合适的距离度量对于k-近邻算法的效果至关重要，通常需要根据具体问题进行实验和调整。

超参数K的选择

k值的选择直接影响k-近邻算法的性能。k值过小可能导致模型对噪声敏感，容易出现过拟合；而k值过大则可能导致模型过于平滑，无法捕捉到数据的局部结构。

具体请看下图
![[Pasted image 20241221162004.png]]

因此，我们可以使用K折交叉验证来完成。当然，你也可以简单的使用单一训练集+验证集+测试集的方法，不过效果可能不一定好，这取决于你的数据集的质量。一般在数据集质量一般的时候，可以采用K折交叉验证。

它将数据集分成 k 个折叠，每个折叠都会被用作一次测试集。然后我们使用剩下的 k-1 个折叠作为训练集来训练模型，并在每个折叠上进行评估结果为Ei。最终，我们将所有 k 次评估的结果平均，得到最终的模型性能评估。

![[Pasted image 20241221164055.png]]

通过交叉验证，我们可以选择出综合性能更好的K值（超参数）

线性分类器

![[Pasted image 20241221164055.png]]

将输入图像展平，然后与矩阵相乘得到每个类别对应的分数。

![[Pasted image 20241221164320.png]]

视觉角度理解

![[Pasted image 20241221164348.png]]

就是对图像的每个像素点训练出对应的权重。

几何角度

![[Pasted image 20241221164514.png]]

多分类问题损失函数SVM

为了训练网络，我们必然需要建立损失函数
假设有三张图片以及三种分类
![[Pasted image 20241221171959.png]]

这是SVM损失的具体定义：
在这里插入图片描述

SVM 损失的设置是，SVM“希望”每个图像的正确类别的得分比错误类别高出一定幅度Δ。再上图中，Δ为1
可以看下图，蓝色代表的是 $s_{y_i}-s_j$
可以看到，loss函数的目的就是为了让正确类别的得分比错误类别高1分。

在这里插入图片描述

SoftMax Loss

softmax 函数

![[Pasted image 20241221175748.png]]
主要作用就是将得分转化为概率分布

交叉熵损失

交叉熵函数推导CrossEntropy_交叉熵推导-CSDN博客

可以看这篇文章，写的很好。这里主要介绍一下：
假设有一个概率分布X

信息量

$I(x_0)=−log(P(x_0))$
概率越少，信息量越大

信息熵

信息熵就是信息量的期望
$H(x)=−∑^n_{i=1}P(x_i)log(P(x_i))$

相对熵（KL散度）

同一随机变量x，有两个单独的概率分布P(x)和Q(x)。用KL散度来衡量P(x)和Q(x)两个独立分布之间的差异的。KL散度值越小，表示P和Q的分布越接近、
$D_{KL}(P||Q)=∑^n_{i=1}P(x_i)log(\frac{P(x_i)}{Q(xi)})$
log里面是除号，因此就是两者相减

交叉熵损失

带入真实场景，我们需要比较的两个概率分布：一个是真实的target，另一个是预测值。
真实的target是确定的，而且只有对应的位置概率为100%，其余都是0.

因此带入KL散度 $D_{KL}(P∥Q)=∑^n_{i=1}P(x_i)log(P(x_i))−∑^n_{i=1}P(x_i)log(Q(x_i))$
我们发现式子前半部分是定值。这对于损失函数来说有没有都一样，因此可以删去。所以最后交叉熵损失函数如下： $H(P,Q)=−∑^n_{i=1}P(x_i)log(Q(x_i))$
其实较真的来说， $P(x_i)$ 中只有一项有意义（=1），所以损失函数其实只有一项（样本只能属于单一类别）
![[Pasted image 20241221200609.png]]

教你如何做网络营销推广_网站必须公安备案吗_多少关键词排名优化软件_成都网络营销推广

KNN

工作机制

距离度量函数

超参数K的选择

线性分类器

视觉角度理解

几何角度

多分类问题损失函数SVM

SoftMax Loss

softmax 函数

交叉熵损失

信息量

信息熵

相对熵（KL散度）

交叉熵损失

最新新闻

热搜词