Recall, Precision, Detection rate, False Alarm rate
在一个大规模数据集合中检索文档时,对每个查询(Query)我们可以统计出四个值:
相关
|
不相关 | |||
1
|
0
|
合计
|
||
检索到
|
1
|
True Positive(TP)
|
False Positive(FP) | Predicted Positive(TP+FP) |
未检索到 |
0
|
False Negative(FN)
|
True Negative(TN)
|
Predicted Negative(FN+TN)
|
合计
|
Actual Positive(TP+FN)
|
Actual Negative(FP+TN) |
TP+FP+FN+TN
|
TP:检索到的,相关的 (搜到的也想要的)
FP:检索到的,但是不相关的 (搜到的但没用的)
FN:未检索到的,但却是相关的 (没搜到,然而实际上想要的)
TN:未检索到的,也不相关的 (没搜到也没用的)
那么,P = TP/(TP+FP),R =TP/(TP+FN)
召回率,查全率(R):检索到的相关文档 /库中所有的相关文档
准确率(P):检索到的相关文档/所有被检索到的文档
D=TP/(TP+FN), F=FP/(FP+TN)
命中率(D): 检索到的相关文档/所有被检索到的文档
误报率(F): 检索到的不相关文档中实验相关的文档/检索到的被认为是不相关的文档
准确率和命中率是同一个东西.即所有(被检索到的文档/应该被检索到的文档)
误报率是不检索的命中率.