1、什么是机器学习?
机器学习的本质是对人类经验学习的模拟。
人通过经验的总结归纳规律用于新问题,预测未来
而机器学习时通过数据总结数据规律,利用总结的规律用于新数据的预测。在算法上,表现为参数拟合,或者概率计算。
机器学习算法的核心是统计学+优化方法+
机器学习的迷人之处在于:不用直接编程,而是赋予机器学习的能力完成直接编程不能完成的任务。
2、机器学习的类型
①监督学习:从成对的标记数据作为输入、输出的经验数据进行学习,从而用于预测。监督学习时从有正确答案的实例中学习。常见的任务类型是分类、回归。
②无监督学习:数据没有标记,直接从数据中发现规律。常见任务类型:聚类、降维。
③半监督学习:介于监督学习与非监督学习之间的学习,数据部分被标识,部分没有,通过对未标识数据建模,来预测标识的数据,进一步预测新数据
④强化学习:问题可以通过决策获得反馈,但是反馈与某个决策可能没有直接的关系。
3、机器学习的数据集
训练集:用来进行训练(产生模型或算法)的数据集,一般占数据规模地50%,常见的问题是过度拟合。
测试集:用来专门测试已经学好的模型或算法的数据集。规模一般占数据规模的25%。
验证集:用于调整超参数变量。规模是余下部分。
交叉验证:将数据集分成N块,使用N-1块进行训练,在另一块上测试。循环,直到每一块都测试过。
交叉验证的优点:①充分利用数据,在数据较少的情况下也能有较好的表现;②交叉验证为模型的效果评估提供对比哪个数据集更准确。
4、效果评估
监督学习和非监督学习效果评估方法不同。
①监督学习评估指标:准确率(ACC)、精确率(P)、召回率(R)
真阳性(TP):正确识别目标
假阳性(FP):错误识别目标
真阴性(TN):正确识别非目标
假阴性(FN):错误识别非目标
准确率ACC=(TP+TN)/(TP+FP+TN+FN)
精确率(P)=TP/(TP+FP)
召回率(R)=TP/(TP+FN)
调和率(F1)=1/P+1/R
②非监督学习评估指标
方差(Variance)
偏差(Bias)
偏差-方差均衡