四个名词:
真正例 True Positive TP: 被预测为真,实际为真的样本
假正例 False Positive FP: 被预测为真,实际为假的样本
真负例 True Negative TN: 被预测为假,实际为假的样本
假负例 False Negative FN: 被预测为假,实际为真的样本
准确率 (Accuracy) 计算公式:(TP + TN) / (TP + FP + TN + FN)
意义:被正确预测的样本占总样本的比例
缺陷:尽管准确率是一个很直观的指标,但在数据不平衡的情况下,它可能会产生误导。
召回率 (Recall) 计算公式:TP / (TP + FN)
意义:在所有实际为真的样本中,被我们预测为真的样本的比例
召回率是针对样本而言,即:样本中的正例有多少被拿出来。
理解:TP就是真实的正例,FN就是实质上是正例,但算法误判是负例。这样算法就有可能把一些正例给误排除掉了。
换一种说法,有一种黄金和砂子的混合物。把黄金挑出来。由于算法可能误把一些黄金认为是砂子所以扔掉了(FN)。RR评估了算法拿出目标的能力,不要漏拿。
如果假负例的成本很高(例如,在欺诈检测中,没能检测到一个真正的欺诈行为可能导致巨大的财务损失),那么可能更倾向于提高召回率。代价是宁愿误把正常情况拿来立案。
精准度 (Precision) 计算公式:TP / (TP + FP)
意义:在所有预测为真的样本中,实际为真的样本所占的比例
精确度针对预测结果而言。预测为正例当中有多少是真的正例。
理解:FP就是其实是负例,但被算法误认为是正例。这样的结果当中就有可能夹生。
有一种黄金和砂子的混合物。把黄金挑出来。由于算法可能误把一些砂子认为是黄金(FP)所以给拿进来了,出现了夹生的现象。
PR评估了算法拿出来的东西纯不纯正,不要乱拿。
如果假正例的成本很高(例如,在医疗诊断中,错误地诊断一个健康的人为病人可能会导致不必要的焦虑和进一步的检查),那么可能更倾向于提高精确度。代价是宁愿误把病人放掉。
F1分数 (F1score) 计算公式:2 x (Precision x Recall) / (Precision + Recall)
意义:F1分数是精确度和召回率的调和平均数,它试图在精确度和召回率之间达到平衡
在精确度和召回率同等重要的情况下,F1分数是一个有用的指标。它特别适用于不平衡数据集。