有空再把内容补上来
均方误差(Mean Squared Error,MSE)和平均绝对误差(Mean Absolute Error,MAE)是深度学习中常用的两种损失函数,用于衡量模型预测结果与真实标签之间的差异,以下是对它们的详细介绍:
定义
- 均方误差(MSE):是预测值与真实值之差的平方和的平均值,其数学表达式为,其中为样本数量,为第个样本的真实值,为第个样本的预测值。
- 平均绝对误差(MAE):是预测值与真实值之差的绝对值的平均值,其数学表达式为。
特点
- MSE
- 对误差的平方惩罚:由于是误差的平方,所以对较大误差的惩罚更严重。这使得模型在训练过程中会更加关注那些预测误差较大的样本,从而促使模型尽可能地减小这些大误差,以降低整体的损失值。
- 梯度计算特性:其梯度与误差成正比,即误差越大,梯度越大,模型参数更新的幅度也就越大。这在训练初期有助于模型快速调整参数,找到一个大致合适的解。
- 连续可导:在数学上具有良好的性质,处处连续可导,便于使用基于梯度的优化算法进行求解,如随机梯度下降(SGD)等。
- MAE
- 对误差的线性惩罚:采用绝对值来衡量误差,对误差的惩罚是线性的,无论误差大小,其惩罚力度相对较为均匀。这使得模型在训练过程中对所有样本的误差都给予相对平等的关注,不会因为个别大误差样本而过度调整参数。
- 鲁棒性较好:对异常值或离群点的敏感度相对较低,因为它不会像 MSE 那样对大误差进行平方放大。所以在数据存在一些噪声或异常值的情况下,MAE 能够提供更稳定的损失度量,使模型的训练更加稳健。
- 梯度不连续:在误差为 0 处不可导,这在使用一些基于梯度的优化算法时可能会带来一些问题,例如可能导致梯度更新不稳定或收敛速度变慢。
适用场景
- MSE
- 回归问题:在大多数回归任务中,如预测房价、股票价格等,MSE 是一种常用的损失函数。它能够使模型更加关注预测的准确性,尤其是对于那些需要精确数值预测的场景。
- 对精度要求高的任务:当对预测结果的精度要求较高,希望模型尽可能减小预测误差时,MSE 是一个合适的选择。例如在一些科学计算或工程应用中,需要对物理量进行精确预测,此时 MSE 可以帮助模型更好地拟合数据。
- MAE
- 存在异常值的情况:当数据集中存在较多异常值或离群点时,MAE 更能体现模型的整体性能。因为它对异常值的不敏感性,使得模型在面对这些干扰因素时能够保持相对稳定的训练和评估。
- 鲁棒性要求高的任务:在一些对模型鲁棒性要求较高的场景中,如医疗诊断、金融风险评估等,MAE 可以提供更可靠的损失度量。这些领域的数据往往存在一定的不确定性和噪声,MAE 能够帮助模型更好地应对这些情况,做出相对稳定的预测。