统计学习方法读书笔记（1）

1.监督学习：对任意给定输入，对其相应的输出做一个好的预测。

2.回归问题：输入变量与输出变量都为连续变量的预测问题。

分类问题：输入变量为有限个离散变量的预测问题。

标注问题：输入输出变量均为变量序列的预测问题。

3.概率模型：由条件概率分布P(Y|X)表示

非概率模型：由决策函数Y= f(X)表示

4.统计学习三要素：

（1）模型：概率模型or非概率模型

（2）策略：学习或选择最优的模型，如何度量？损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。度量结果不理想？经验风险最小化和结构风险最小化（加入正则项防止过拟合）。

（3）算法：即最优化问题，分为全局最优和局部最优。

5.训练误差和测试误差：看是对训练数据集还是测试数据集计算平均损失。

6.正则化：在经验风险上加上一个正则化项或罚项来实现结构风险最小化，模型越复杂，正则化值越大。选择经验风险和模型复杂度同时较小的模型。

7.交叉验证：数据不充足时，把给定的数据进行切分来重复使用数据，反复地进行训练，测试以及模型选择。包括简单交叉验证，S折交叉验证，留一交叉验证。

8.泛化能力：学习到的模型对未知数据的预测能力。

泛化误差：

9.生成模型：由数据学习联合概率密度分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型：P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y)，然后再得到后验概率P(Y|X)，再利用它进行分类，就像上面说的那样。

判别模型：由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。基本思想是有限样本条件下建立判别函数，不考虑样本的产生模型，直接研究预测模型。典型的判别模型包括k近邻，感知级，决策树，支持向量机等。

10.分类问题：k近邻法，感知机，朴素贝叶斯，决策树，逻辑斯谛回归，支持向量机，提升方法，EM算法，隐马尔科夫模型，贝叶斯网络，神经网络。

11.标注问题：输入观测序列，输出一个标记序列或状态序列。

12.回归问题：选择一条函数曲线很好的拟合已知数据和预测未知数据。最常用的损失函数为平方损失函数，可由最小二乘法求解。

posted @ 2017-07-16 14:18 PJQOOO 阅读(519) 评论(0) 编辑收藏举报

刷新页面返回顶部

PJQOOO