7-机器学习-分类模型的评价指标
总结
- 混淆矩阵
-
- 先看正反,再看真伪
- 准确率:Accuracy = (TP+TN)/(TP+FN+FP+TN) 预测正确的比例
- 模型.score()方法返回的就是模型的准确率
- 召回率:Recal = TP/(TP+FN) 就是TPR,真实正例被找到的概率
- API:from sklearn.metrics import recall_score
- 精准率:Precision = TP/(TP+FP) 预测为正例,正确的比例
- API:from sklearn.metrics import accuracy_score
- f1_Score:
- 精确率和召回率的调和平均数
- 反应了模型的稳健性,是一个综合的评判标准
- API:from sklearn.metrics import f1_score
- AUC指的是ROC曲线下的面积:AUC是一个模型评价指标,只能用于二分类模型的评价
- AUC越大,TPR越大,预测的正确率越高,AUC越接近1越好
- API:from sklearn.metrics import roc_auc_score
分类模型的评价指标
- 问题:如何评判两部手机的好坏?
- 1.根据性能评价
- 2.根据外观评价
- 3.根据价格评价
- 分析:如果对一个事物进行好坏的评价,首先我们一定是在指定场景下,使用符合该场景相关的评价标准对其进行好坏的评价!那么归于分类模型的评价有如下几种方式:
- 准确率
- 精准率
- 召回率
- f1-Score
- auc
- 在介绍每种评价指标之前,首先我们来看一个叫做混淆矩阵的东西:
混淆矩阵
- 概念:在分类任务下,预测结果(Predict Condition)和真实结果(True Condition)之间存在的四种不同的组合。适用于二分类和多分类
-
例子:设计一个二分类的场景,将图片分类为猫或者狗。则:
-
- 真正例(TP):本来是猫结果预测值为猫的比例(预测为正例是真的)
- 伪正例(FP):本来不是猫结果预测值为猫的比例(预测为正例是假的)
- 伪反例(FN):本来是猫结果预测值为不是猫的比例(预测为反例是假的)
- 真反例(TN):本来不是猫结果预测值为不是猫的比例(预测为反例是真的)
- 真正例率TPR = TP / (TP + FN):预测对的比例,TPR越大越好
-
- 预测为正例且实际为正例的样本占所有训练集中为正例样本的比例。
- 将正例预测对的占正样本的比例(预测对的比例),这个比例越大越好
-
- 伪反例率FPR = FP / (FP + TN):预测错的比例,TPR越小越好
- 预测为正例但实际为负例的样本占训练集中所有负例样本的比例
- 将负例预测错的占负样本的比例(预测错的比例),这个比例越小越好
注意:如果有其他的类别,其他的每一个类别也有其对应的混淆矩阵表示真伪正例和真伪反例的比例
准确率
- Accuracy = (TP+TN)/(TP+FN+FP+TN)
- 解释:(预测正确)/(预测对的和不对的所有结果),简而言之就是预测正确的比例。
- 模型.score()方法返回的就是模型的准确率
召回率(较多被使用)
- Recal = TP/(TP+FN)
- 解释:真正为正例的样本中预测结果为正例的比例。正样本有多少被找出来了(召回了多少)
- 例子:医院预测一个病人是否患有癌症。假设有100个测试样本(10个癌症患者,90个非癌症患者),最终预测结果为6个癌症患者,94个非癌症患者。召回率就是在10癌症患者中预测正确多少个,或者说在癌症患者中预测出癌症患者的比例(预测出的癌症患者/所有癌症患者(预测正确的+预测错误的))。
- 使用场景:
- 是否患癌症
- 产品是否为残次品
- API:recall_score
精确率
- Precision = TP/(TP+FP)
- 解释:预测结果为正例样本(TP+FP)中真实值为正例(TP)的比例。
- 本来是猫预测也为猫 /(本来是猫预测也为猫+本来不是猫预测为猫)
- 解释:预测结果为正例样本(TP+FP)中真实值为正例(TP)的比例。
- API:accuracy_score
f1-score:精确率和召回率的调和平均数
- 有时候我们需要综合精确率和召回率的指标,则需要使用f1-score
- 模型的精确率和召回率是有矛盾的,而F1分数(F1-score)是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。
- 反应了模型的稳健性
- 它是精确率和召回率的调和平均数
- 是一个综合的评判标准
- API:f1_score
AUC曲线
- AUC是一个模型评价指标,只能用于二分类模型的评价。该评价指标通常应用的比较多!
- 应用的比较多是原因是因为很多的机器学习的分类模型计算结果都是概率的形式(比如逻辑回归),那么对于概率而言,我们就需要去设定一个阈值来判定分类,那么这个阈值的设定就会对我们的正确率和准确率造成一定成都的影响。
- 逻辑回归的默认阈值为0.5
- 应用的比较多是原因是因为很多的机器学习的分类模型计算结果都是概率的形式(比如逻辑回归),那么对于概率而言,我们就需要去设定一个阈值来判定分类,那么这个阈值的设定就会对我们的正确率和准确率造成一定成都的影响。
- AUC(Area under Curve),表面上意思是曲线下边的面积,这么这条曲线是什么?
- ROC曲线(receiver operating characteristic curve,接收者操作特征曲线)
- 真正例率TPR = TP / (TP + FN)
- 预测为正例且实际为正例的样本占所有训练集中为正例样本的比例。 - 将正例预测对的占正样本的比例(预测对的比例),这个比例越大越好
- 伪反例率FPR = FP / (FP + TN)
- 预测为正例但实际为负例的样本占训练集中所有负例样本的比例 - 将负例预测错的占负样本的比例(预测错的比例),这个比例越小越好
- 真正例率TPR = TP / (TP + FN)
- ROC曲线(receiver operating characteristic curve,接收者操作特征曲线)
- 在理想情况下,最佳的分类器应该尽可能地处于左上角,这就意味着分类器在伪反例率(预测错的概率)很低的同时获得了很高的真正例率(预测对的概率)。也就是说ROC曲线围起来的面积越大越好,因为ROC曲线面积越大,则曲线上面的面积越小,则分类器越能停留在ROC曲线的左上角。
- AUC的的取值是固定在0-1之间。AUC的值越大越好。
- AUC的API
- from sklearn.metrics import roc_auc_score
- y_pre = predict_proba(x_test)返回预测的概率
- auc=roc_auc_score(y_test,y_pre[:,1])
综合应用
from sklearn.metrics import roc_auc_score,f1_score,recall_score,accuracy_score from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression # 提取数据 iris = datasets.load_iris() feature = iris.data target = iris.target # 切分数据 x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020) # 逻辑回归 l = LogisticRegression() l.fit(x_train,y_train) # 分类模型评价指标 # 准确率 l.score(x_test,y_test) # 0.8666666666666667 # 召回率 # 参数average='binary'为默认值,只针对二分类,需要作修改 recall_score(y_test, l.predict(x_test),average='macro') # 0.8666666666666667 # 精准率 accuracy_score(y_test, l.predict(x_test)) # 0.8666666666666667 # f1-Score # 参数average='binary'为默认值,只针对二分类,需要作修改 f1_score(y_test,l.predict(x_test),average='macro') # 0.8666666666666668 # AUC 只能用于二分类 # 参数y_score是分到某一类别的概率 y_score = l.predict_proba(x_test)[:,1] roc_auc_score(y_test,y_score) # 这里报错是因为我们把AUC作用于了多分类