分类器评估方法:准确率和混淆矩阵
注:本文是人工智能研究网的学习笔记
准确率
accuracy_score:函数计算分类准确率,返回被正确分类的样本比例(default)或者是数量(normalize=False)
在多标签分类问题中,该函数返回子集的准确率,对于一个给定的多标签样本,如果预测得到的标签集合与该样本真正的标签集合严格吻合,则subset accuracy =1.0否则是0.0
混淆矩阵
在机器学习中尤其是统计分类中,混淆矩阵(confusion matrix),也被称为错误矩阵(error matrix)。
矩阵的每一列表达了分类器对于样本的类别预测,二矩阵的每一行则表达了版本所属的真实类别
之所以叫做’混淆矩阵‘,是因为能够很容易的看到机器学习有没有将样本的类别给混淆了。
Table of confusion
在预测分析中(predictive analytics)中table of confusion有时也叫(confusion matrix)是一个两行两列的表,这个表报告了四个预测相关的事件发生的数量: false positive, False negative, true positve和false negative。这个表可以让我们更加详细的分析预测系统的性能,热不是仅仅用一个准确率。
Accuracy是一个不可靠的分类器性能度量标准,因为当数据集中不同类的别的样本数量分布不平衡的时候,它将会产生误导人的结果。
比如说,如果数据集中有95个猫和5个狗,分类器会简单的将其分为猫,这样的准确率是95%。
最终的table of confusion是把所有的table of confusion平均组合起来的结果。