本文是将文章《线性可分支持向量机的原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。
公式 9-1 用来表达训练集样本点 ( x i , y i ) (\mathbf{x}_i, y_i) (xi,yi) 到线性可分支持向量机分离超平面的距离。
d ^ i = y i ( w ⋅ x i + b ) (9-1) \hat d_i=y_i(w·x_i+b) \tag{9-1} d^i=yi(w⋅xi+b)(9-1)
1. 支持向量机的基本背景
支持向量机的目标是找到一个超平面将不同类别的数据分开,且保证间隔(分类超平面与支持向量之间的距离)最大化。超平面的一般形式为:
w T x + b = 0 \mathbf{w}^T \mathbf{x} + b = 0 wTx+b=0
其中 w \mathbf{w} w 是超平面的法向量, b b b 是偏置。
分类函数 f ( x ) f(\mathbf{x}) f(x) 的形式为:
f ( x ) = sign ( w T x + b ) f(\mathbf{x}) = \text{sign}(\mathbf{w}^T \mathbf{x} + b) f(x)=sign(wTx+b)
这表示一个数据点 x \mathbf{x} x 是否位于分类超平面的某一侧,用于预测其分类标签。
2. 公式 9-1 的具体含义
公式 9-1 定义了样本点 ( x i , y i ) (\mathbf{x}_i, y_i) (xi,yi) 到分类超平面的“带符号距离”:
d ^ i = y i ( w T x i + b ) \hat d_i = y_i (\mathbf{w}^T \mathbf{x}_i + b) d^i=yi(wTxi+b)
解释:
- d ^ i \hat d_i d^i 是带符号的距离,即考虑到样本点属于哪一类(由 y i y_i yi 表示)。
- y i y_i yi 是样本 i i i 的真实标签,取值为 + 1 +1 +1 或 − 1 -1 −1,分别表示两类。
- w T x i + b \mathbf{w}^T \mathbf{x}_i + b wTxi+b 是点 x i \mathbf{x}_i xi 到超平面的函数值。
3. 公式的推导逻辑
- 当 y i = + 1 y_i = +1 yi=+1 时,如果 w T x i + b > 0 \mathbf{w}^T \mathbf{x}_i + b > 0 wTxi+b>0,说明该点位于超平面正确的一侧,且 d ^ i > 0 \hat d_i > 0 d^i>0 表示它的距离大于 0,意味着分类正确。
- 当 y i = − 1 y_i = -1 yi=−1 时,若 w T x i + b < 0 \mathbf{w}^T \mathbf{x}_i + b < 0 wTxi+b<0, d ^ i \hat d_i d^i 也是正值,表示分类正确。
因此, d ^ i \hat d_i d^i 实际上是样本点到超平面的带符号距离,用来判定样本点是否被正确分类。
4. 为什么引入 y i y_i yi?
y i y_i yi 的作用是将样本点的距离和它的真实分类关联起来。对于每个样本,如果该样本位于超平面正确的一侧(即符合它的类别),则 d ^ i \hat d_i d^i 为正,反之为负。因此, y i y_i yi 的引入确保了无论样本属于哪一类,计算出的距离都是一致的,正值意味着分类正确。
5. 总结
公式 9-1 定义了支持向量机中样本点 ( x i , y i ) (\mathbf{x}_i, y_i) (xi,yi) 到分类超平面的距离,其中通过引入 y i y_i yi 来确保这个距离能够反映样本点是否被正确分类。