《统计学习方法》 统计学习概念与分类
一、统计学习的概念
统计学习(Statistical Machine Learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
从已知到未知的方法。
统计学习的方法步骤
- 得到一个有限的训练数据集合
- 确定学习模型的集合—————— 模型
- 确定模型选择的准则—————— 策略
- 实现求解最优模型的算法———— 算法
- 通过学习方法选择
- 利用学习的最优模型对新数据进行预测或分析
- 统计学习三要素:模型、策略、算法
以上三要素构成构成学习系统
二、统计学习的分类
1 基本分类
根据学习的数据中包含的标注信息。
监督学习:都是已经标注过的数据
无监督学习:数据没有标注
半监督学习:数据只含有少量标注
主动学习:选取有用的实例进行标注,通过较小的标注代价,实现较好的学习效果。
2 按照模型分类
概率模型:条件概率分布表达
非概率模型:函数形式表达
线性模型:模型函数是线性的
非线性模型:模型函数是非线性的
参数化模型:有限维参数刻画。简单模型
非参数化模型:参数维度不固定。复杂现实问题。
3 按照算法分类:
在线学习:一次接受一个样本进行学习、预测,不断重复。
(数据无法及时储存、随时间动态变化、实时数据)
批量学习:一次接受所有的数据进行学习,学习模型进行预测。
4 按照技巧分类
贝叶斯学习:朴素贝叶斯
核方法:核函数、支持向量机
相关概念:
输入空间(Input Space):输入的所有可能取值的集合。
实例(Instance):每一个具体的输入,通常由特征向量(Feature Vector)表示。
特征空间(Feature Space):所有特征向量存在的空间。
输出空间(Output Space):输出的所有可能取值的集合。
根据变量类型不同:
输入与输出变量均为连续变量的预测问题 ——回归问题
有限个离散变量的预测问题 ——分类问题
变量序列的预测问题 ——标注问题
监督学习
监督学习(Supervised Learning)是指从标注数据中学习预测模型的机器学习问题,其本质是学习输入到输出的映射的统计规律。
基本假设:X和Y具有联合概率分布P(X|Y)
目的:学习映射关系的模型
模型形式:条件概率分布P(X|Y)或 决策函数Y=f(X)
假设空间(Hypothesis Space):包含了所有可能的模型的集合
对具体的输入进行相应的输出预测的时候,表达为:
P(y|x) 或 y=f(x)
符号表示
模型说明图:
无监督学习
无监督学习(Unsupervised Learning)是指从无标注数据中学习预测模型的机器学习问题,其本质是学习数据中的统计规律或潜在结构。
预测模型:表示数据的类别、转换或概率
本质:学习数据中的统计规则或者潜在规则。
相关概率:
强化学习
智能系统和环境之间的互动,分两类:基于策略和基于价值。