机器学习简要笔记（一）机器学习基本概念

1、什么是机器学习？

机器学习的本质是对人类经验学习的模拟。

人通过经验的总结归纳规律用于新问题，预测未来

而机器学习时通过数据总结数据规律，利用总结的规律用于新数据的预测。在算法上，表现为参数拟合，或者概率计算。

机器学习算法的核心是统计学+优化方法+

机器学习的迷人之处在于：不用直接编程，而是赋予机器学习的能力完成直接编程不能完成的任务。

2、机器学习的类型

①监督学习：从成对的标记数据作为输入、输出的经验数据进行学习，从而用于预测。监督学习时从有正确答案的实例中学习。常见的任务类型是分类、回归。

②无监督学习：数据没有标记，直接从数据中发现规律。常见任务类型：聚类、降维。

③半监督学习：介于监督学习与非监督学习之间的学习，数据部分被标识，部分没有，通过对未标识数据建模，来预测标识的数据，进一步预测新数据

④强化学习：问题可以通过决策获得反馈，但是反馈与某个决策可能没有直接的关系。

3、机器学习的数据集

训练集：用来进行训练（产生模型或算法）的数据集，一般占数据规模地50%，常见的问题是过度拟合。

测试集：用来专门测试已经学好的模型或算法的数据集。规模一般占数据规模的25%。

验证集：用于调整超参数变量。规模是余下部分。

交叉验证：将数据集分成N块，使用N-1块进行训练，在另一块上测试。循环，直到每一块都测试过。

交叉验证的优点：①充分利用数据，在数据较少的情况下也能有较好的表现；②交叉验证为模型的效果评估提供对比哪个数据集更准确。

4、效果评估

监督学习和非监督学习效果评估方法不同。

①监督学习评估指标：准确率（ACC）、精确率（P）、召回率（R）

真阳性（TP）：正确识别目标

假阳性（FP）：错误识别目标

真阴性（TN）：正确识别非目标

假阴性（FN）：错误识别非目标

准确率ACC=（TP+TN）/(TP+FP+TN+FN)

精确率（P）=TP/(TP+FP)

召回率（R）=TP/(TP+FN)

调和率（F1）=1/P+1/R

②非监督学习评估指标

方差（Variance）

偏差（Bias）

偏差-方差均衡

posted on 2018-08-16 11:00 livermorium116 阅读(173) 评论(0) 收藏举报

刷新页面返回顶部

令狐葱