混淆矩阵与模型评估

1.混淆矩阵

　　通常对于二分类模型，我们的预测结果与实际情况两两组合，会得到4种结果。这4中结果组成了混淆矩阵。以0,1作为两种类别。如下：

　　用P(Positive)、N(Negative)代表1、0两种结果，T(True)代表预测正确，F(False)代表预测错误。重新表示混淆矩阵就变成了下面这个样子：

　　上面的混淆矩阵转换为文字描述如下：

　　TP：预测为1，预测正确，实际为1

　　FP：预测为1，预测错误，实际为0

　　FN：预测为0，预测错误，实际为1

　　TN：预测为0，预测正确，实际为0

2.准确率

　　准确率也是分类模型评估的指标之一。准确率是指预测正确(TP+TN)的结果占总样本(TP+TN+FP+FN)的百分比，公式如下：

　　当样本不平衡时，既使准确率很高，模型效果也不一定好。比如癌症患者中总样本有100个，95个为正常，5个为癌症。我们可以无脑的创建一个模型，该模型将其全部当做正常，那么准确率达到了95%。然而不是我们想要的效果，因为另外五个癌症患者全部被预测为正常了。

3.精准率

　　精准率(precision)又叫查准率，它是针对预测结果而言，预测结果为正(P)的样本中实际也为正(TP)的样本的概率。

4.召回率

　　召回率又称为查全率，与精准率不同，是针对原样本而言的。表示实际为正的样本中有多少被正确预测了。

　　比如预测癌症患者时，将正常预测为癌症与将癌症预测为正常，一般认为后者的损失更大。可采用召回率判断找出癌症患者的概率。召回率越高，代表实际坏用户被预测出来的概率越高，它的含义类似：宁可错杀一千，绝不放过一个。

5.精准率与召回率的关系

　　精准率与召回率分子是相同的，分母不同。两者的关系可以用P-R图来表示。

　　图中表示随着阈值（比如逻辑回归二分类的阈值）的不同，查全率与查准率随着变化，平衡点是两者都达到一个较高的水平。

6.F1分数

　　F1分数为查准率与查全率的平衡点对应的取值。

　　F1分数=2*查准率*查全率/(查准率+查全率)

补充：关于ROC等其他内容后面等本人整理在写上，可以参考最下方连接，写的很详细！

　　不足或错误之处，欢迎指正！

参考资料：https://www.zhihu.com/question/30643044

posted @ 2022-08-16 20:12 wancy 阅读(422) 评论(0) 收藏举报

刷新页面返回顶部

wancy