统计学习方法——学习笔记之概论

赫尔伯特·西蒙曾对学习给出以下定义：

如果一个系统能够通过执行某个过程改进它的性能，这就是学习。

统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。

损失函数或代价函数用来度量模型一次预测的好坏，常用的损失函数有如下几种：

损失函数越小，模型就越好。

学习的目标是选择期望风险最小的模型。根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险。

但实际中样本数量有限，甚至很小。因此需要对经验进行一定的矫正，这就关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化。

正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化会罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。如，回归问题中，损失函数是平方损失，正则化项的参数向量的L1和L2范数表示：

交叉验证是一种模型选择方法，基本思想是重复的使用数据。

简单交叉验证：随机将数据分为两部分，一部分作为训练集，另一部分作为测试集。
S折交叉验证：将数据随机地分为S个大小相同互不相交的子集，然后利用S-1个子集的数据进行训练，利用余下的子集测试模型，将这一过程对可能的S种选择城府进行，最后选出S次评测中平均误差最小的模型。
留一交叉验证：S=N，N为给定数据集的容量，称为留一交叉验证。

生成模型：

判别模型：

判别方法：由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型，即为判别模型。
典型的模型：k邻近法、感知机、决策树，logistics regression、最大熵模型、支持向量机、提升方法和条件随机场等。
判别方法的特点：
- 直接学习的是决策函数f(X)或者条件概率分布P(Y|X)，直接面对预测，往往学习的准确率更高；
- 由于直接学习f(X)或者P(Y|X)，可以对数据进行各种程度上的抽象、定义特征并使用特征，可以简化学习问题。

参考文档：

1. 统计学习方法李航著

posted on 2018-06-12 14:40 月光晒谷阅读(278) 评论(0) 收藏举报