召回率和精度
召回率(Recall)和精度(Precise)是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中召回率是是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。
从一个大规模数据集合中检索文档时,可把文档分成四组:
1. 系统检索到的相关文档(A)
2. 系统检索到的不相关文档(B)
3. 相关但是系统没有检索到的文档(C)
4. 不相关且没有被系统检索到的文档(D)
则召回率 R 和精度 P 的计算公式分别为
(1)召回率
R = A / ( A + C )
其中分子为检索到的相关文档数,分母为所有相关文档总数。
(2)精度
P = A / ( A + B )
其中分子为检索到的相关文档数,分母为所有检索到的文档总数。
举例来说:一个数据库有 500 个文档,其中有 50 个文档符合定义的问题。系统检索到75 个文档,但只有 45 个符合定义的问题。此时有
(1)召回率
R = 45 / 50 = 90%
(2)精度
P = 45 / 75 = 60%