【466】准确率(precision)、召回率(recall)、F值
参考:如何解释召回率与精确率?
参考:推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)
参考:机器学习性能评估指标
- True Positive(真正, TP):将正类预测为正类数.
- True Negative(真负 , TN):将负类预测为负类数.
- False Positive(假正, FP):将负类预测为正类数 →→ 误报 (Type I error).
- False Negative(假负 , FN):将正类预测为负类数 →→ 漏报 (Type II error).
在信息检索领域,精确率和召回率又被称为查准率和查全率,
- 查准率=检索出的相关信息量 / 检索出的信息总量
- 查全率=检索出的相关信息量 / 系统中的相关信息总量
举例:例如用 百度/谷歌 搜索一个关键词 ML,
- 查准率 就是指所有的结果中真正是自己想要的比率,越高肯定越好(比较精准)
- 查全率 就是指所有想要的结果中被搜索到的比率(比较全面)
- 评论:众所周知,百度经常是查找率不高,前面都是广告,因此很多搜索结果都不是我们想要的,其次召回率也不高,因为你想找的东西很可能找不到,而谷歌则是大部分结果都是自己想要的,广告比较少,召回率很高,基本上能找到自己想要的东西。
准确率:看重结果,结果中,判断正确的比例,有时候也是用正来表示
召回率:看重正确结果有多少被查找出来
参考:如何解释召回率与精确率? - Charles Xiao的回答 - 知乎 https://www.zhihu.com/question/19645541/answer/91694636
另外通过面积占比来理解更容易一些!
通过下面的函数可以分别计算 $precision$, $recall$, $F_1$, $IoU$
查准率(precision),指的是预测值为1且真实值也为1的样本在预测值为1的所有样本中所占的比例。以西瓜问题为例,算法挑出来的西瓜中有多少比例是好西瓜。
分母:所有 $pred$ 为 1 的部分
$$precision = \frac{TP}{TP + FP} = \frac{Area(pred \cap true)}{Area(pred)}$$
召回率(recall),也叫查全率,指的是预测值为1且真实值也为1的样本在真实值为1的所有样本中所占的比例。所有的好西瓜中有多少比例被算法挑了出来。
分母:所有 $true$ 为 1 的部分
$$recall = \frac{TP}{TP + FN} = \frac{Area(pred \cap true)}{Area(true)}$$
F1分数(F1-Score),又称为平衡F分数(BalancedScore),它被定义为精确率和召回率的调和平均数。
$$F_1 = 2 * \frac{precision * recall}{precision + recall}$$
IOU(Intersection over Union)交并比。计算真实值和预测值集合的交集与并集之比。
$$IoU = \frac{TP}{TP + FP + FN}$$