线性回归算法的定义和任务类型
- 定义:线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法
- 任务类型:回归
- 应用场景:异常指标监控 农业贷款监控
过拟合和欠拟合
- 定义:过拟合和欠拟合用来度量模型泛化能力的直观表现
- 欠拟合:模型在训练集、测试集上均表现不佳的情况;
- 过拟合:在训练集上表现很好,到了验证和测试阶段就很差
- 线性回归正则化模型
正则化能有效的防止过拟合现象,根据正则化的选择,线性回归模型有3种
逻辑回归算法定义和任务类型
- 定义:逻辑回归是一种广义线性回归,在线性回归的基础上添加非线性变换,使得逻辑回归输出值为离散值
- 任务类型:分类
- 应用场景:学生考试成绩预测、雾霾天气预测
逻辑回归的多分类应用
逻辑回归常用于二分类,根据策略不同,可以将逻辑回归用于多分类任务
- 一对多法
对于K分类,训练时依次把某个类别的样本归为一类,其它剩余的样本归为另一类,得到K个分类器,预测时分别用K哥分类器进行预测,选择结果最大的作为分类的结果。- 优点:普适性比较广,效率较高
- 缺点:易造成数据不平衡
以下图中黄色三角形的分类为例,依次将三角形、圆形、正方形归为一类,得到三个分类器,预测时分别用这三个分类其对黄色三角形进行预测,选择结果最大的作为黄色三角形的类别
- 一对一法
对K分类,训练时依次让不同类别数据两两组合训练,得到 K ( K − 1 ) 2 \frac{K(K-1)}{2} 2K(K−1)个分类模型,预测时分别用二分类器进行预测,最后得票最多的类别即为位置样本的类别- 优点:一定程度规避数据不平衡情况,性能相对稳定,训练效率提高
- 缺点:训练的二分类模型更多,影响预测时间
以下图中黄色三角形的分类为例,将三角形、圆形、正方形两两组合得到三角形圆形、圆形方形、三角形方形 3 × ( 3 − 1 ) 2 = 3 \frac{3\times(3-1)}{2}=3 23×(3−1)=3个分类器,依次使用三个分类器对黄色三角形进行判断,得到的结果依次为三角形、圆形、三角形,票数最多的类别为三角形,则黄色三角形的类别为三角形
- softmax法
如上图所示,逻辑回归二分类将要预测的黑圆经过sigmoid函数进行非线性变换后得到的1的结果(结果只有0或1,0为三角形,1为圆),所以黑圆的类别为圆;而逻辑回归多分类将要预测的黑圆的经过softmax变换后映射到0~1之间的值,概率最大的为圆因此黑圆的类别为圆
朴素贝叶斯算法
- 定义:朴素贝叶斯(Naive Bayes model)是基于贝叶斯定理与特征条件独立假设的分类方法
- 任务类型:分类
- 应用场景:垃圾邮件分类 舆情分析
特征条件独立假设
比如要根据温度、湿度、是否出太阳等3个特征判断今天是否会下雨。实际这3个特征是相互关联的,但是为了简化计算,朴素贝叶斯假设这三个特征相互独立。
K近邻算法(KNN)
- 定义:K近邻即从训练集中找到与新实例最近的K给实例,根据K个实例来进行预测
- 任务类型:分类、回归
- 场景应用:约会匹配 商品推荐
如上图所示,K近邻分类当K=3时则以预测对象为中心将离它最近的三个数据圈起来,圆比较多所以新实例为圆,当K=5时将距离最近的五个数据圈起来,则此时方形比较多,则预测结果为方形,因此K的取值对结果有一定影响
- 距离度量
特征空间中两个实例点之间的距离是二者相似程度的反映;K近邻算法通过距离来寻找离新实例最近的K个实例
- 欧式距离:两个点的直线距离 d 1 = ( x 1 − x 0 ) 2 + ( y 1 − y 2 ) 2 d_1=\sqrt{(x_1-x_0)^2+(y_1-y_2)^2} d1=(x1−x0)2+(y1−y2)2
- 曼哈顿距离:两个点在标准坐标系上的绝对轴距之和 d 2 = ∣ x 1 − x 0 ∣ + ∣ y 1 − y 0 ∣ d_2=\vert x_1-x_0\vert+\vert y_1-y_0\vert d2=∣x1−x0∣+∣y1−y0∣
支持向量机算法(SVM)
- 定义:支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面
- 应用场景:心脏病预测 用户窃电识别
- 线性可分:如果样本可以直接使用一个线性函数切分,则称样本线性可分
- 线性不可分:如果样本不能直接使用一个线性函数切分,则称样本线性不可分。通过升维,将低维度映射到高维度实现线性可分
为了解决线性不可分引入核函数的概念
核函数概念与常用函数介绍
- 定义:将样本数据升维,使低维非线性可分变为高维线性可分
- 常见的核函数
- 线性核函数
- 径向基核函数
- 多项式核函数
- Sigmoid核函数
决策树
- 定义:决策树是一种以树结构形式来表达的预测分析模型
- 类别:分类树和回归树
- 应用场景:银行贷款预测 动物识别
- 结构:决策树由节点和分支构成
- 决策树的构造通常由三个步骤:特征选择、决策树生成、决策树剪枝
信息:能消除不确定性的内容才是信息
信息熵:将有可能产生的信息定义为一个随机变量,该变量的期望就是信息熵
信息增益率:信息增益用来做特征选择,用整体信息熵减去某一部分特征分裂后的条件熵,结果越大说明特征越能消除不确定性,分类特别多的时候信息增益非常大,为了平衡增加了一个特征包含的类别的惩罚项,即信息增益率
基尼系数:是一种衡量信息不确定的方法,跟信息熵结果差不多但是基尼系数计算快,类别越多基尼系数越大
集成学习算法
- 定义:通过构建和结合多个机器学习算法(基学习器)完成学习任务
- 重要条件:基学习器学习结果之间存在差异
- 应用场景:土地覆盖测绘 恶意软件检测
- 三大流派:Bagging、Boosting、Stacking
-
Bagging集成学习算法:主要对样本训练集合进行随机化抽样,用过反复抽样训练新的模型,最终在这些模型的基础上取平均
Bagging集成学习算法流程 -
Boosting集成学习算法:通过不断地使用一个弱学习器弥补前一个弱学习器的不足的过程,来串行地构造一个较强的学习器,这个强学习器能够使目标函数值足够小
Boosting集成学习算法流程 -
Stacking集成学习算法:是通过一个元分类器,或者元回归器来整合多个分类模型或回归模型的集成学习技术。基础模型利用整个训练集做训练,元模型将基础模型的输出作为特征进行训练。
Stacking集成学习算法流程 -
聚类算法
- 定义:聚类属于无监督学习的一种,使同一类的数据尽可能聚集到一起,不同数据尽量分离
- 应用场景:非人恶意流量识别 新闻主题聚类