f-measure[转]

F-Measure又称为F-Score,是IP（信息检索）领域常用的一个评价标准，计算公式为：

其中β是参数，P是准确率（Precision）,R是召回率（Recall）.

F1-Measure:当参数β=1时，就是最常见的F1-Measure了：F1 = 2P*R / (P+R)

准确率和召回率：找回率和准确率是搜索引擎的设计中很重要的两个概念和指标。

召回率：Recall,又称“查全率”；

准确率：Precision,又称“精度”、“正确率”。

在一个大规模数据集合中检索文档时，对每个查询（Query）我们可以统计出四个值：：

TP：检索到的，相关的（搜到的也想要的）

FP：检索到的，但是不相关的（搜到的但没用的）

FN：未检索到的，但却是相关的（没搜到，然而实际上想要的）

TN：未检索到的，也不相关的（没搜到也没用的）

那么，P = TP/(TP+FP)，R =TP/（TP+FN）

召回率：检索到的相关文档 /库中所有的相关文档

准确率：检索到的相关文档/所有被检索到的文档

通常我们希望：数据库中相关的文档，被检索到的越多越好，这是追求“查全率”越大越好。同时我们还希望：检索到的文档中，相关的越多越好，不相关的越少越好，这是追求“准确率”越大越好。

“召回率”与“准确率”的关系

“召回率”与“准确率”虽然没有必然的关系，然而在大规模数据集合中，这两个指标却是互相制约的。

由于“检索策略”并不完美，希望更多相关的文档被检索到时，放宽“检索策略”时，往往也会伴随出现一些不相关的结果，从而使准确率受到影响。

而希望去除检索结果中的不相关文档时，务必要将“检索策略”定的更加严格，这样也会使有一些相关的文档不再能被检索到，从而使召回率受到影响。

凡是涉及到大规模数据集合的检索和选取，都涉及到“召回率”和“准确率”这两个指标。而由于两个指标相互制约，我们通常也会根据需要为“检索策略”选择一个合适的度，不能太严格也不能太松，寻求在召回率和准确率中间的一个平衡点。这个平衡点由具体需求决定。

posted @ 2014-04-11 09:24 Providence 阅读(895) 评论(0) 收藏举报

刷新页面返回顶部

Providence