统计学习概念
零、学习的定义
如果一个系统能够通过执行某个过程改进它的性能,这就是学习。
一、统计学习(statistical learning)定义
关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的学科。
统计学习也称为统计机器学习(statistical machine learning)。现在人们如果提到机器学习,往往也是指统计机器学习。
二、统计学习的特点
1. 以计算机及网络为平台,建立在计算机及网络之上。
2. 以数据为研究对象,是数据驱动的学科。
3. 目的是对数据进行预测和分析。
4. 以方法为中心,统计学习方法构建模型并应用模型进行预测和分析。
5. 是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系及方法论。
三、对象、目的、方法
1. (关于对象)统计学习对于数据有一个基本假设:同类数据具有一定的统计规律性。这是统计学习的前提。
2. (关于目的)因为对数据的预测和分析是通过构建概率统计模型实现的,那么统计学习的目标自然就是考虑学习
怎么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能的提高学习效率。
3.(关于方法)由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)等组成。
统计学习方法的三要素为:模型(model)、策略(strategy)、算法(algorithm)
实现统计学习方法的步骤如下:
1) 得到一个有限的训练数据集合;
2) 确定包含所有可能模型的假设空间(hypothesis space),即学习模型的集合;
3) 确定模型选择的准则,即学习的策略;
4)实现求解最优模型的算法,即学习的算法;
5)通过学习方法选择最优模型;
6)利用学习的最优模型对新数据进行预测或分析;
监督学习方法主要解决:分类问题、标注问题、回归问题。
四、统计学习研究
1. 统计学习方法(statistical learning method)的研究旨在开发新的学习方法;
2. 统计学习理论(statistical learning theory)的研究在于探索统计学习方法的有效性和效率,以及统计学习的基本理论问题;
3. 统计学习应用(application of statistical learning)的研究主要考虑如何把统计学习方法应用到实际问题中去,解决实际问题;