令狐葱

大漠孤烟直,长河落日圆。

博客园 首页 订阅 管理

1、什么是机器学习?

机器学习的本质是对人类经验学习的模拟。

人通过经验的总结归纳规律用于新问题,预测未来

而机器学习时通过数据总结数据规律,利用总结的规律用于新数据的预测。在算法上,表现为参数拟合,或者概率计算。

机器学习算法的核心是统计学+优化方法+

机器学习的迷人之处在于:不用直接编程,而是赋予机器学习的能力完成直接编程不能完成的任务。

 

2、机器学习的类型

①监督学习:从成对的标记数据作为输入、输出的经验数据进行学习,从而用于预测。监督学习时从有正确答案的实例中学习。常见的任务类型是分类、回归。

②无监督学习:数据没有标记,直接从数据中发现规律。常见任务类型:聚类、降维。

③半监督学习:介于监督学习与非监督学习之间的学习,数据部分被标识,部分没有,通过对未标识数据建模,来预测标识的数据,进一步预测新数据

④强化学习:问题可以通过决策获得反馈,但是反馈与某个决策可能没有直接的关系。

 

3、机器学习的数据集

训练集:用来进行训练(产生模型或算法)的数据集,一般占数据规模地50%,常见的问题是过度拟合。

测试集:用来专门测试已经学好的模型或算法的数据集。规模一般占数据规模的25%。

验证集:用于调整超参数变量。规模是余下部分。

交叉验证:将数据集分成N块,使用N-1块进行训练,在另一块上测试。循环,直到每一块都测试过。

交叉验证的优点:①充分利用数据,在数据较少的情况下也能有较好的表现;②交叉验证为模型的效果评估提供对比哪个数据集更准确。

 

4、效果评估

监督学习和非监督学习效果评估方法不同。

①监督学习评估指标:准确率(ACC)、精确率(P)、召回率(R)

真阳性(TP):正确识别目标

假阳性(FP):错误识别目标

真阴性(TN):正确识别非目标

假阴性(FN):错误识别非目标

准确率ACC=(TP+TN)/(TP+FP+TN+FN)

精确率(P)=TP/(TP+FP)

召回率(R)=TP/(TP+FN)

调和率(F1)=1/P+1/R

②非监督学习评估指标

方差(Variance)

偏差(Bias)

偏差-方差均衡

 

posted on 2018-08-16 11:00  livermorium116  阅读(145)  评论(0编辑  收藏  举报