统计学习方法笔记 01概述

统计学习方法概论笔记

统计学习三要素

模型
策略
算法

统计学习的特点

统计学习是计算机运用数据及统计方法提高性能的机器学习

Herbert A. Simon. 如果一个系统能够通过执行某个过程改进它的性能，这就是学习。

统计学习的对象

对象是数据：从数据出发，提取数据特征，抽象数据模型，发现数据知识，回到数据的分析与预测中。
前提假设：同类数据具有一定的统计规律性。比如用随机变量来描述数据特征，用概率分布来描述数据的统计规律

统计学习的目的

对数据进行分析和预测，性能提升，同时尽可能的提高学习效率

统计学习的方法

监督学习
非监督学习
半监督学习
强化学习

监督学习

从给定的，有限的，用于学习的训练数据（training data）集合出发，假设数据是独立同分布产生的；并假设要学习的模型属于某个函数的集合，称为假设空间（hypothesis space）；应用某个评价标准（evaluation criterion），从假设空间中选取一个最优的模型，使它对已知训练数据和未知测试数据(test data)在给定的评价标准中有最优的预测；最优模型的选取由算法实现。

基本概念

输入空间：输入所有可能取值的集合。
输出空间：输出所有可能取值的集合。
特征空间：特征向量存在的空间。（可以是有限元素的集合，也可以是欧氏空间）

输入变量写作$X$，输入变量的取值写作$x$
$$
x=(x^1,x2,\ldots,xⁿ⁾T
$$
$x^{i}$表示第$i$个特征
$x_{i}$表示第$i$个输入变量
$$
x_i=(x_i^1,x_i2,\ldots,x_iⁿ⁾T
$$
训练集通常表示为
$$
T={(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)}
$$

联合概率分布

监督学习假设输入随机变量$X$和输出变量$Y$满足联合概率分布$P(X,Y)$。对于学习系统来说，联合分布的具体定义是未知的。

假设空间

模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间（hypothesis space）。
监督学习的模型可以是概率模型或非概率模型，由条件概率分布$P(Y|X)$或决策函数（decision function）$Y=f(X)$表示。

问题形式化

监督学习利用训练数据集学习一个模型，再用模型对测试样本集进行预测（prediction）。

通过学习得到的模型，表示为条件概率分布$\hat{P}(Y|X)$或决策函数$Y=\hat{f}(x)$
在预测过程中由
$$
\DeclareMathOperator*{\argmax}{arg,max}
y_{N+1}=\argmax_{y_{N+1}} P(Y_{N+1}|X_{N+1})
$$

posted @ 2016-08-03 07:25 sunqiang 阅读(350) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

sunqiang