机器学习概念

1、分类：具有类别标签，将数据集根据分到相应的类别

聚类：没有类别标签，将数据集根据他们的相似度分为不同的簇

2、监督学习：用于学习的数据集都是输入\输出数据对，学习的任务是找到输入与输出的对应规则

非监督学习：用于学习的数据集只有输入，学习的任务是对于数据进行分析，找到输出

3、分类与回归：

分类：y是离散的，仅有几个值

回归：y是连续的

4、分类性能度量指标

（1）错误率：在所有的测试样例中，被错分的样例所占的比例

缺点：并不能很好的表达样例如何被分错

（2）混淆矩阵

好

正确率（precision）=TP/(TP+FP)：预测为正例的样本中的真正正例的比例

召回率（Recall）=TP/(TP+FN)：预测的正实例占所有正实例的比例，又称为真正类率(True Positive Rate)(TPR)-----敏感度

负正类率(False Positive Rate)(FPR)=FP/(FP+TN):错认为正类的负实例占所有负实例的比例

真负类率（TNR）=TN/(TN+FP)=1-FPR---->特异度

（3）ROC曲线：真值覆盖程度

（待截图）

posted @ 2014-12-24 02:05 李闹闹童鞋阅读(209) 评论(0) 编辑收藏举报

刷新页面返回顶部

李闹闹童鞋的博客