降维/嵌入 ---非监督学习
原始的高维映射到地维空间
降维方法:维度选择、维度抽选
维度选择:选择已有维度的一个子集 (D维 ->K维)
-
JL定理:D维 近似等距的嵌入 K维
优点:简单、流行,有比较好的泛化性能
缺点:没有精度保证
- 手工移除特征:冗余的、不相关的、质量差的
监督方法:过滤式选择、包裹式选择、嵌入式选择
- 过滤式选择
设计一个相关统计量(单个特征与标签之间的相关系数。互信息)来度量特征的重要性
优点:根据单个特征和目标之间的统计分值选择特征值,速度快
缺点:没考虑特征间的关系
- 包裹式选择
用最终的学习器性能评价特征的重要性
前向:从0开始一遍式/迭代式地选择;后向:所有特征训练一个模型,得到特征重要性;每次删除最不重要的特征
删除/增加特征,需要进行模型性能监控
- 嵌入式选择
嵌入式维度选择与模型训练一起完成
基于树模型的特征选择
基于L1正则的特征选择
维度抽选:组合已有的维度构建新的维度
-
特征分解
输入矩阵A[M×N]; Av=λv ,v特征向量,λ特征值
特征分解(对角化):A=是由特征值组成的对角矩阵
奇异值分解 :奇异值, 奇异值对应的奇异向量
正交矩阵,其每个行,列代表一个方向
线性模型
- 多维缩放(MDS):
给定空间中任意两个点的距离,点的具体位置、维度未知;将这些点嵌入到低维空间,使得新空间中点对的距离和原来尽可能接近
输入:距离矩阵D,低维度D’
算法过程:计算D;借助中心化矩阵,计算 ;对B做特征值分解
输出:
- PCA
过程:1.先处理数据,数据标准化,使得均值为0
2.求相关矩阵R=XX^T
3.求R的特征值、特征向量 Rw=λw
4.降为k维,就选最大的k个特征值的特征向量,构成主成分矩阵P
5.x对应到k维 X'=XP
优点:特征向量方向、没有格外参数、没有迭代、没有局部最小值
缺点:只用了二阶统计量,不能处理高阶;受限于线性投影
非线性降维:核PCA、流形学习
- 核PCA
-
流形学习
高维空间中,欧式距离不能准确反映数据内在的相似度
全局距离保持,等距离映射ISOMAP:构建邻接图;计算最短距离(测地距离);构建低维嵌入
局部距离保持,LLE拉普拉斯特征映射
局部优先,tNSE:高维空间相似的点映射到低维也相似。高维降到2/3维,嵌入空间的相似度由t分布表示,SNE:欧氏距离转换为用概率来表示的相似度。主要用于可视化
优化准则
最小化信息损失
最大化区分度