您的位置:首页 > 科技 > 能源 > 第六章:支持向量机

第六章:支持向量机

2024/10/6 16:23:42 来源:https://blog.csdn.net/qq_63029071/article/details/140678557  浏览:    关键词:第六章:支持向量机

目录

6.1 间隔与支持向量

6.2 对偶问题

6.3 核函数

6.4 软间隔与正则化

6.4.1 软间隔

6.4.2 正则化

6.5 支持向量回归

6.6 核方法

6.1 间隔与支持向量

分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开.但能将训练样本分开的划分超平面可能有很多,如下图所示

图6.1 划分超平面

“正中间”的:鲁棒性最好,泛化能力最强

超平面方程:

w^Tx+b=0

样本空间中任意点到超平面(w,b)的距离可写为:

r=\frac{|w^T+b|}{||w||}

如图6..1.2所示,距离超平面最近的这几个训练样本点点到超平面的距离为1,它们被称为“支持向量”(support vector),两个异类支持向量到超平面的距离之和为:

\gamma =\frac{2}{||w||}

图6.1.2 支持向量与间隔

 现在我们需要找到最大间隔的划分超平面,使y最大

6.2 对偶问题

支持向量机本身是一个二次规划问题,能用优化计算包求解,但可以有更高效的办法

拉格朗日乘子法:

  • 第一步:引入拉格朗日乘子法\alpha _i\geq0得到拉格朗日函数:

L(w,b,a)=\frac{1}{2}||w||^2+\sum_{i=1}^{m}a_i(1-y_i(w^Tx_i+b))

  • 第二步:令L(w,b,a)对w和b的偏导为零可得:

w=\sum_{i=1}^{m}a_iy_ix_i,0=\sum_{i=1}^{m}a_iy_i

  • 第三步:回代可得:

最终模型:

f(x)=w^T+b=\sum_{i=1}^{m}a_iy_ix_i^Tx+b 

需要满足KKT条件:

\left\{\begin{matrix} a_i\geq 0\\ 1-y_if(x_i)\leq 0\\ a_i(1-y_if(x_i))=0 \end{matrix}\right.

必有a_i=0y_if(x_i)=1

  • 解的稀疏性:

训练完成后,最终模型仅与支持向量有关

这个解法还不够方便,还有更容易的方法:

  • SMO:

基本思路:不断执行如下两个步骤直至收敛

  • 第一步: 选取一对需更新的变量a_ia_j
  • 第二步: 固定a_ia_j以外的参数,求解对偶问题更新a_ia_j

仅考虑a_ia_j时,对偶问题的约束0=\sum_{i=1}^{m}a_iy_i变为

 用a_i表示a_j,代入对偶问题,这样就有闭式解。

对任意支持向量(x_s,y_s)y_sf(x_s)=1,可以解出b

但现实任务中常采用一种更鲁棒的做法:使用所有支持向量求解的平均值

b=\frac{1}{|S|}\sum_{s\in S}^{}(\frac{1}{y_s}-\sum_{i\in S}^{}a_iy_ix_i^Tx_s)

6.3 核函数

若不存在一个能正确划分两类样本的超平面,怎么办?

将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性可分

图6.3.1 异或问题与非线性性映射

如果原始空间是有限维(属性数有限),那么—定存在一个高维特征空间使样本线性可分

  • 原始问题:

  • 对偶问题:

  • 预测:

 计算高维的内积非常困难,所以我们设想了一个函数(核函数):

k(x_i,x_j)=\phi (x_i)^T\phi (x_j)

绕过显式考虑特征映射、以及计算高维内积的困难

Mercer定理: 若一个对称函数所对应的核矩阵半正定,则它就能作为核函数来使用

任何一个核函数,都隐式地定义了一个RKHS(Reproducing Kernel HilbertSpace,再生核希尔伯特空间)
“核函数选择”成为决定支持向量机性能的关键!

6.4 软间隔与正则化

6.4.1 软间隔

现实中很难确定合适的核函数。使训练样本在特征空间中线性可分,即便貌似线性可分,也很难断定是否是因过拟合造成的
引入软间隔(Soft Margin),允许在一些样本上不满足约束

图6.4.1 软间隔示意图,红色为不满足约束

 基本思路: 最大化间隔的同时,让不满足约束y_i(w^Tx_i+b)≥1的样本尽可能少

 

 障碍:0/1损失函数非凸、非连续、不易优化!

图6.4.2 三种替代损失函数
  • 采用替代损失函数,是在解决困难问题时的常见技巧
  • 求解替代函数得到的解是否仍是原问题的解?理论上称为替代损失的“—致性”(Consistency)问题

 软间隔支持向量机:

  • 原始问题:

  • 引入”松弛量“:

  • 对偶问题:

根据KKT条件可知,最终模型仅与支持向量有关,也即采用hinge损失函数后仍保持了sVM解的稀疏性

6.4.2 正则化

统计学习模型的更一般形式:

min_f\Omega (f)+C\sum_{i=1}^{m}l(f(x_i),y_i)

 \Omega (f)是结构风险(也被称为正则化项),描述模型本身的某些性质,l(f(x_i),y_i)是经验风险,描述模型与训练数据的契合程度

  • 正则化可理解为“罚函数法”
  • 通过对不希望的结果施以惩罚,使得优化过程趋向于希望目标从贝叶斯估计的角度,则可认为是提供了模型的先验概率

6.5 支持向量回归

基本思路:允许模型输出与实际输出间存在2\varepsilon的差别

标题

 落入2\varepsilon间隔带的样本不计算损失

  • 原始问题:

  • 对偶问题:

  • 预测:

6.6 核方法

  • 表示定理:

令H为核函数k对应的再生核希尔伯特空间,优化问题:

解为:

h^*(x)=\sum_{i=1}^{m}a_ik(x,x_i)

对于一般的损失函数和正则化项,优化问题的最优解h*(z)都可表示为核函数的线性组合

核方法:核函数的学习方法

  • 核化:

将线性学习器拓展为非线性学习器,从而得到“核线性判别分析”

通过某种映射将样本映射到一个特征空间,然后进行线性判别分析,求得:

h(x)=w^T\phi (x)

 KLDA学习目标:

用核函数来替代高维的内积,

h(x)=\sum_{i=1}^{m}a_ik(x,x_i)

可得:

w=\sum_{i=1}^{m}a_i\phi (x_i)

最后KLDA学习目标可等价为:

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com