统计学习
统计学习
定义:
统计学习是关于计算机基于数据构建概率统计模型,并运用模型对数据进行预测和分析的一门学科。
研究对象:
研究对象是数据,从数据出发,提取数据的特征,抽象数据的模型,发现数据的知识,又回到对数据的分析和预测中去。
统计学习的前提是假设数据具有一定的统计规律性。
统计学习特点:
(1)以计算机几网络为平台,是建立在计算机及网络之上的。
(2)以数据为研究对象是数据驱动的学科。
(3)其目的是对数据进行预测和分析。
(4)以方法为中心,统计学习方法构建模型并应用模型进行预测和分析。
(5)是概率论、统计学、信息论等多个领域的交叉学科,自成一派。
统计学习的方法:
(监督学习、半监督学习、非监督学习、强化学习)
1、从给定的、有限的、用于学习的训练数据集合出发。
2、假定数据是独立同分布的,假定要学习的模型属于某个函数的集合(称为假设空间)
3、应用某个评价准则,从假设空间选取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价标准下有最优的预测,其中最优模型的选取由算法实现。
统计学习的三要素:模型、策略和算法
统计学习的步骤:
(1)得到一个有限的训练数据集合。
(2)确定包含所有可能的模型的假设空间,即学习模型的集合。
(3)确定模型选择的准则,即学习的策略。
(4)实现求解最优模型的算法,即学习的算法。
(5)通过学习方法来选择最优模型。
(6)利用学习的最优模型对新数据进行预测或分析。
统计学习的重要性:
1、统计学习是处理海量数据的有效方法。
2、统计学习是计算机智能化的有效手段。
3、计算机科学由三维组成:系统、计算和信息,统计学习隶属信息这一维,并起到核心作用。