您的位置:首页 > 汽车 > 时评 > 介休市政府领导分工_外贸展示型网页设计_对网络推广的理解_中国企业培训网

介休市政府领导分工_外贸展示型网页设计_对网络推广的理解_中国企业培训网

2025/2/8 2:46:52 来源:https://blog.csdn.net/m0_60792028/article/details/144156728  浏览:    关键词:介休市政府领导分工_外贸展示型网页设计_对网络推广的理解_中国企业培训网
介休市政府领导分工_外贸展示型网页设计_对网络推广的理解_中国企业培训网

目前最常用的是CART树:
评价标准:每次划分后子节点的纯度(即是否标签都为0/1),分为信息熵、基尼系数(越小则纯度越高)和分类误差
找划分节点的方法:CART树无需区分连续和离散变量,只要在每两个取值间取中间值作为切点即可。(注意C4.5不用这种方法处理离散变量)
停止:基尼系数下降小于一个阈值
剪枝:CART树采用正则化方法在损失函数中加入结构复杂度惩罚因子
(当然也可以用树的层数,每层节点数作为超参数来剪枝)
具体参数如下:

ccbfb99fe1e641109bf8e63a19af4c93.png

 

几个重要的参数
A.criterion:选基尼不纯度,计算速度快。且基尼不纯度倾向于在数据集中分割出多数类,而信息熵则倾向于分出更加平衡的树
B.Ccp_alpha:越大则对模型结构惩罚力度越大,模型结构越简单
C.控制树结构的参数:max_depth(注意是生长了几层,不是总共几层)、max_leaf_nodes、min_samples_split、min_samples_leaf、min_impurity_split、min_impurity_decrease
注意计算不纯度的时候,要乘父节点的样本占比,这也是防止过拟合的方式之一
D.控制迭代随机过程的参数类
Splitter、max_features


ID3和C4.5和CART的对比
ID3只能处理离散型变量,连续型变量要分箱。ID3是根据一列的不同取值做展开,一次分成几类。由于是以熵的变化作为标注,因此它会选择一列中离散值较多的列。ID3是选一列,而C4.5是在所有切点中选一个
C4.5是ID3的改进,改进如下:
1、引入信息值修正信息熵,以抑制ID3找值多的列来展开,从而抑制过拟合。具体方法是-p*logp,但是它是计算特征不同取值的混乱程度,而信息熵是计算标签不同取值的混乱程度
2、引入连续值得处理方法,即CART中寻找相邻值得中间值作为切分点。而离散变量还是按照按ID3的方法来
3、加入剪枝流程,防止过拟合
4、注意,CART树也可以处理离散变量,和C4.5不同的是,它是按连续变量找中间值的方法来处理的

CART回归树:集成算法的基础
评估标准改为了MSE,也可以用MAE,此时是直接计算街道距离。选择标准:如果希望对极端值有较好的识别能力则用MSE否则用MAE。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com