查准率与查全率(precision and recall) 的个人理解
假设要识别照片中的狗的,在一些照片中,包含12只狗的照片和一些猫的照片。算法识别出有8只狗。在确定的8只狗中,5只实际上是狗(真阳性TP),而其余的是猫(假阳性FP)。该程序的精度为5/8,而其召回率为5/12。
Predicted | |||
Actual | 狗(+) | 猫(-) | |
狗(+) | 5(TP) | FN | 12 |
猫(-) | 3(FP) | TN | |
8 |
Confusion matrix
TP: T 是指标记正确, P 是指实际中的类别是P类, 所以
TP:正确地标记为正。
FP:错误地标记为正(即原来是负,标记成正)。
FN:错误地标记为负(即原来是正,标记成负)。
TN:正确地标记为负。
查准率 = 精度 = precision
查全率 = 召回率 = recall
当搜索引擎返回30个页面时,只有20个页是相关的(实际相关),而没有返回另外40个相关页面,其精度为20/30 = 2/3,而召回率为20/60 = 1/3。所以,在这种情况下,精度是“搜索结果有用”,召回率是“结果如何完整”。
Predicted | |||
Actual | (+) | (-) | |
(+) | 20(TP) | 40(FN) | 60 |
(-) | FP | TN | |
30 |
Confusion matrix
商品推荐系统中,为了尽可能地少打扰用户,更希望推荐内容确实是用户感兴趣的,就要提高精度(查准率),在分类时,慎重地预测为+,也就是说,预测成正地比例将减小,即中 TP+FP变小,分母变小,分子也变小,但是分母变化的更剧烈,所以精度变大。在公式中,TP变小,分子变小,分母(实际的正类)不变,召回率变小。
在逃犯信息检索系统中,更希望尽可能地少漏掉逃犯,此时,就要提高召回率(查全率),在分类时,尽量多的预测为+,就需要提高预测正类的比例,TP+FP 变大,TP变大,在公式中 TP变大,分母不变,分子变大,所以召回率变大。在公式中,分母变大,分子变大,但是分母变化的更剧烈,所以精度变小。