统计学习方法笔记 01概述

统计学习方法概论笔记

统计学习三要素

  • 模型
  • 策略
  • 算法

统计学习的特点

统计学习是计算机运用数据及统计方法提高性能的机器学习

Herbert A. Simon. 如果一个系统能够通过执行某个过程改进它的性能,这就是学习。

统计学习的对象

对象是数据:从数据出发,提取数据特征,抽象数据模型,发现数据知识,回到数据的分析与预测中。
前提假设:同类数据具有一定的统计规律性。比如用随机变量来描述数据特征,用概率分布来描述数据的统计规律

统计学习的目的

对数据进行分析和预测,性能提升,同时尽可能的提高学习效率

统计学习的方法

  • 监督学习
  • 非监督学习
  • 半监督学习
  • 强化学习

监督学习

从给定的,有限的,用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价标准(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据和未知测试数据(test data)在给定的评价标准中有最优的预测;最优模型的选取由算法实现。

基本概念

  • 输入空间:输入所有可能取值的集合。
  • 输出空间:输出所有可能取值的集合。
  • 特征空间:特征向量存在的空间。(可以是有限元素的集合,也可以是欧氏空间)

输入变量写作$X$,输入变量的取值写作$x$
$$
x=(x1,x2,\ldots,xn)T
$$
$x^{i}$表示第$i$个特征
$x_{i}$表示第$i$个输入变量
$$
x_i=(x_i1,x_i2,\ldots,x_in)T
$$
训练集通常表示为
$$
T={(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)}
$$

联合概率分布

监督学习假设输入随机变量$X$和输出变量$Y$满足联合概率分布$P(X,Y)$。对于学习系统来说,联合分布的具体定义是未知的。

假设空间

模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。
监督学习的模型可以是概率模型或非概率模型,由条件概率分布$P(Y|X)$或决策函数(decision function)$Y=f(X)$表示。

问题形式化

监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测(prediction)。

通过学习得到的模型,表示为条件概率分布$\hat{P}(Y|X)$或决策函数$Y=\hat{f}(x)$
在预测过程中由
$$
\DeclareMathOperator*{\argmax}{arg,max}
y_{N+1}=\argmax_{y_{N+1}} P(Y_{N+1}|X_{N+1})
$$

posted @ 2016-08-03 07:25  sunqiang  阅读(350)  评论(0编辑  收藏  举报