一,机器学习基础
1.1机器学习的定义
机器学习可以解释为,如果计算机程序在 T 任务中的表现(以 P 为衡量标准)随着经验 E 的提高而提高,则计算机程序可以从“经验 E”中学习某些“任务 T”和“性能衡量 P”类别。
机器学习中的关键要素:
- 任务(Task)
- 经验(Experience)
- 指标(Performance Measure)
1.2 AI,ML与相关应用
AI设计的方面有很多:机器学习(ML),计算机视觉(CV),自然语言处理(NLP)等等。期中机器学习是最重要的分支之一,也可以说是AI领域的基础
机器学习也可以被视为一个跨学科的学科。其中涉及计算机科学,概率论,最优化,信息论,神经科学等等。
如今,机器学习广泛应用于医学,语音处理,自动驾驶等多个领域。
1.3 机器学习的类别
机器学习中有两个基本类型:监督学习(Supervised learning)和无监督学习(Unsupervised learning)。
从数学的角度看两个类别:
- 监督学习:基于一些经过人类标记的输出,我们的任务是找到一个函数,使得输入能对应获得一个输出.
- 无监督学习:我们需要建立一个有关x的模型,使得其中的特征能够很好地揭示出来。
拿生活的例子比喻,监督学习就像有老师教着学,无监督学习就像自学。从数据上看,两个例子中的区别在于“标签(label)”的有无。
从数据类型,连续或离散来看,机器学习又有两种类别。
- 分类/聚类(Classification/Clustering):对离散量的处理,监督学习上指分类,无监督学习上指聚类。
- 回归/降维(Regression/Dimensionality Reduction):对连续量的处理,监督学习上指回归,无监督学习上指降维。
接下来对监督学习和无监督学习做进一步的数学解释。
1.4 监督学习
1.4.1 数据集
在监督学习中,数据集是一些标签数据的集合,记作,
其中,
- 每个都是一个特征向量,向量中每个维度j = 1,..., D都包含一个能表述数据特征的值
- 标签几个意思一个属于类别的有限集合的元素,也可以是实数
-
1.4.2 工作流程
普遍的工作流程如下:
- 数据集准备
- 训练(Training)
- 测试(Inference/test)
其中训练是通过模型,从训练数据和对应的标签中获得学习到的参数;测试则是指通过模型和学习到的参数,由未知的X获得预测标签
1.5 无监督学习
1.5.1 数据集
在监督学习中,数据集是一些无标签数据的集合,记作,
其中,
- 每个都是一个特征向量
1.5.2 工作流程
基本工作流程与监督学习类似,但需要注意:
- 无监督学习的主要任务是分析数据对于未来推断的结构,将特征向量转化为能解决实际问题的值或者另一个向量
- 在训练过程中,一些控制参数(比如说,类别)取代了标签的作用
1.5.3 聚类
- 任务:将无标签点的集合分割成一些聚类
- 表现:同一聚类的点互相接近,不同聚类的点相互远离,集群具有所有数据的适当聚合
- 经验:足够的数据
1.5.4 降维
降维的目的:
- 数据简化:非线性——>线性
- 数据可视化:高维——>低维
- 减少噪音:有些维度的数据带有噪音
- 预测的变量选择:学习一个稀疏模型,如果不同维度之间存在冗余
1.6 一些与机器学习有关的基本概念
1.6.1 训练集
用于模型的训练的数据集
1.6.2 测试集
用于模型的评估的数据集
1.6.3 独立同分布假设(Independent and identically distributed (i.i.d.) assumption)
在标准机器学习中,假设所有样本都是独立同分布的随机变量的观测/实现,训练集和测试集遵循相同的分布。
1.6.4 目标函数(Target Function)
目标函数 t : X → Y:训练/测试数据背后的从输入到输出的真实映射函数。它是未知的,我们的目标是找到它。
1.6.5 假设与假设空间(Hypothesis and Hypothesis space)
假设是描述未知目标函数的候选函数;假设空间是所有可能的合法假设的集合。
1.6.6 成本函数(cost function)
成本函数衡量假设在估计 x 和 y 之间关系的能力方面是好是坏
1.6.7 损失函数(Objective function)
我们想要优化(最小化、最大化或极小化极大化)的函数。当我们最小化它时,我们也可以将其称为成本函数,或误差函数。
1.6.8 训练和测试
训练:用优化的方法在假设空间中找到一个比较好的假设,建立一个模型
测试:评估这个模型
1.7 一个比较普遍的工作流程
收集数据——> 数据预处理——>决定假设空间,损失函数,优化方法等等——>训练——>测试——>改进