机器学习概念

1、分类:具有类别标签,将数据集根据分到相应的类别

     聚类:没有类别标签,将数据集根据他们的相似度分为不同的簇
2、监督学习:用于学习的数据集都是输入\输出数据对,学习的任务是找到输入与输出的对应规则
     非监督学习:用于学习的数据集只有输入,学习的任务是对于数据进行分析,找到输出
3、分类与回归:
     分类:y是离散的,仅有几个值
     回归:y是连续的
4、分类性能度量指标
(1)错误率:在所有的测试样例中,被错分的样例所占的比例
        缺点:并不能很好的表达样例如何被分错
(2)混淆矩阵
    预测结果
    +1   -1  
真实结果 +1   真正例(TP) 伪反例(FN)
-1 伪正例(FP)

真反例(TN)

 
 
 
 
 
 
 
正确率(precision)=TP/(TP+FP):预测为正例的样本中的真正正例的比例
召回率(Recall)=TP/(TP+FN):预测的正实例占所有正实例的比例,又称为真正类率(True Positive Rate)(TPR)-----敏感度
负正类率(False Positive Rate)(FPR)=FP/(FP+TN):错认为正类的负实例占所有负实例的比例
真负类率(TNR)=TN/(TN+FP)=1-FPR---->特异度
(3)ROC曲线:真值覆盖程度
(待截图)
posted @ 2014-12-24 02:05  李闹闹童鞋  阅读(207)  评论(0编辑  收藏  举报