机器学习概念
1、分类:具有类别标签,将数据集根据分到相应的类别
聚类:没有类别标签,将数据集根据他们的相似度分为不同的簇
2、监督学习:用于学习的数据集都是输入\输出数据对,学习的任务是找到输入与输出的对应规则
非监督学习:用于学习的数据集只有输入,学习的任务是对于数据进行分析,找到输出
3、分类与回归:
分类:y是离散的,仅有几个值
回归:y是连续的
4、分类性能度量指标
(1)错误率:在所有的测试样例中,被错分的样例所占的比例
缺点:并不能很好的表达样例如何被分错
(2)混淆矩阵
预测结果 | |||
+1 | -1 | ||
真实结果 | +1 | 真正例(TP) | 伪反例(FN) |
-1 | 伪正例(FP) |
真反例(TN) |
正确率(precision)=TP/(TP+FP):预测为正例的样本中的真正正例的比例
召回率(Recall)=TP/(TP+FN):预测的正实例占所有正实例的比例,又称为真正类率(True Positive Rate)(TPR)-----敏感度
负正类率(False Positive Rate)(FPR)=FP/(FP+TN):错认为正类的负实例占所有负实例的比例
真负类率(TNR)=TN/(TN+FP)=1-FPR---->特异度
(3)ROC曲线:真值覆盖程度
(待截图)