李航统计学习方法(第二版)基本概念(一):统计学习、对象、目的以及方法等

统计学习:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

统计学习的主要特点

(1)统计学习以计算机及网络为平台,是建立在计算机及网络上的

(2)统计学习以数据为研究对象,是数据驱动的学科

(3)统计学习的目的是对数据进行预测与分析

(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析,应用模型进行预测与分析

(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论

 

统计学习的对象:统计学习研究的对象是数据(data.)。数据是多样的,包括存在于计算机及网络土的各种数字、文字、图像、视频、音频数据以及它们的组合。

统计学习的目的:统计学习用于对数据的预测与分析,特别是对未知新数据的预测与分析。

统计学习的方法:基于数据构建概率统计模型从而对数据进行预测与分析。统计学习由监督学习、无监督学习、强化学习等组成

统计学习方法可以概括如下

          从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的:

         并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space );

         应用某个评价准则(evaluation criterion ),从假设空间中选取个最优模型,使它对已知的训练数据及未知的测试数据(test data.)

         在给定的评价准则下有最优的预测:

         最优模型的选取由算法实现。

         这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称其为统计学习方法的三要素,简称为模型 ( model)、策略(strategy)、算法(algorithm)
实现统计学习方法的步骤:

1) 得到一个有限的训练数据集合;

2) 确定包含所有可能的模型的假设空间,即学习模型的集合;
3) 确定模型选择的准则,即学习的策略;
4) 实现求解最优模型的算法,即学习的算法;
5) 通过学习方法选择最优模型;
6) 利用学习的最优模型对新数据进行预测或分析。

posted @ 2020-04-30 15:10  秋华  阅读(391)  评论(0编辑  收藏  举报