统计学习方法
第 1 章 统计学习及监督学习概论
统计学习的主要特点是:
- 统计学习以计算机及网络为平台,是建立在计算机及网络之上的;
- 统计学习以数据为研究对象,是数据驱动的学科;
- 统计学习的目的是对数据进行预测与分析;
- 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
- 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
假设空间(hypothesis space):
其中是参数为 的函数(决策函数),也称为模型(Model),参数向量取值与维欧式空间,也称为参数空间(parameter space), 为参数的数量(维度)
模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数
特征空间(feature space):
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。这
时,所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于
一个特征。
输入空间中的一个输入向量,在多项式模型中特征向量是()
一般说的线性模型,指的是特征向量的线性组合,而不是指输入向量,所以说模型都是定义在特征空间上的
统计学习的三要素:
- 模型的假设空间(hypothesis space),简称:模型(model)
- 模型选择的准则(evaluation criterion),简称:策略(strategy)或者学习准则
- 模型学习的算法(algorithm),简称:算法(algorithm)
以线性回归(Linear Regression)为例:
模型:
策略(strategy)或者学习准则: 平方损失函数
算法:解析解analytical solution(闭式解closed-form solution)和数值解numerical solution,如:closed-form的最小二乘的解以及梯度下降法
机器学习的定义:
使用训练数据来计算接近目标 𝑓 的假设(hypothesis )g (来自:Machine Learning Foundations(机器学习基石),25 页)
监督学习:
监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。本质是学习输入到输出的映射的统计规律。
输入变量与输出变量均为连续变量的预测问题称为回归问题;
输出变量为有限个离散变量的预测问题称为分类问题;
输入变量与输出变量均为变量序列的预测问题称为标注问题(可以理解为特殊的分类问题)。
监督学习的模型可以是概率模型或非概率模型,由条件概率分布或决策函数(decision function)表示,随具体学习方法而定。对具体的输入进行相应的输出预测时,写作或。
联合概率分布:
监督学习假设输入与输出的随机变量 X 和 Y 遵循联合概率分布。表示分布函数,或分布密度函数。注意,在学习过程中,假定这一联合概率分布存在,但对学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布独立同分布产生的。
统计学习假设数据存在一定的统计规律,和具有联合概率分布的假设就是监督学习关于数据的基本假设。
非监督学习:
非监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构。
非监督学习的模型可以表示为函数或者条件概率分布 (输出可以是聚类或者降维)
以及 条件概率分布 (用来做概率密度估计,比如 GMM 中属于高斯分布,如果假设知道数据来自哪个高斯分布,即知道,我们可以用极大似然估计来估计相关参数)。
概率模型(probabilistic model)与非概率模型(non-probabilistic model)或者确定性模型(deterministic model):
概率模型(probabilistic model)- 条件概率分布 P(y|x)和 非概率模型(non-probabilistic model) - 函数 y=f(x)可以相互转化,条件概率分布最大化后得到函数,函数归一化后得到条件概率分布。所以概率模型与非概率模型的区别不在于输入输出之间的映射关系,而在于模型的内部结构:概率模型一定可以表示为联合概率分布的形式,而非概率模型则不一定存在这样的联合概率分布。
概率模型的代表是概率图模型(probabilistic graphical model),联合概率分布可以根据图的结构分解为因子乘积的形式,可以用最基本的加法规则和乘法规则进行概率推理:
参数化模型(parametric model)和非参数化模型(non-parametric model):
参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画。(如:感知机、GMM)
非参数化模型假设模型参数的唯独不固定或者说无穷大,随着训练数据量的增加而不断增大。(如:决策树、支持向量机)
在线学习(online learning)和批量学习(batch learning):
在线学习每次接受一个样本,预测后学习模型,并不断重复该操作。
批量学习一次接受所有数据,学习模型之后进行预测。
在线学习比批量学习更难,因为每次模型更新中可利用的数据有限。
贝叶斯学习(Bayesian learning)/ 贝叶斯推理(Bayesian inference):
核技巧(kernel trick)/ 核方法(kernel method):
核方法是一类把低维空间的非线性可分问题,转化为高维空间的线性可分问题的方法。
核技巧是一种利用核函数直接计算 ,以避开分别计算 和 ,从而加速核方法计算的技巧。
核函数:设 是输入空间(即 , 是 的子集或离散集合 ),又设 为特征空间( 希尔伯特空间),如果存在一个从 到 的映射
使得对所有 ,函数 满足条件
则称 为核函数。其中 为映射函数, 为内积。
核技巧的想法是,在学习和预测中只定义核函数 ,而不显式地定义映射函数 。通常直接计算比较容易,而通过和计算并不容易。
注意:是输入空间到特征空间的映射,特征空间一般是高维的,甚至是无穷维的。所以不好计算,甚至会带来维度灾难又称维度诅咒(Curse of Dimensionality)。
附加知识
各种空间介绍
线性空间就是定义了加法和数乘的空间(空间里的一个元素就可以由其他元素线性表示)。
度量空间就是定义了距离的空间(曼哈顿距离,欧氏距离,闵可夫斯基距离,马氏距离,切比雪夫距离)。
定义距离时,有三条公理必须遵守:
- 非负性、同一性:(非负性),当且仅当(同一性)
- 对称性:
- 三角不等式(也叫直递性):
希尔伯特空间(Hilbert)
文字解释:【两点之间距离不为负;两个点只有在 空间 上重合才可能距离为零;a 到 b 的距离等于 b 到 a 的距离;a 到 c 的距离加上 c 到 b 的距离大于等于 a 直接到 b 的距离;】
赋范空间就是定义了范数的空间。
x的范数||x||就是x的长度。那么这里的长度和上一节中说的距离到底有什么区别呢。距离的概念是针对两个元素来说的,例如d(x,y)指的是x与y两个元素之间的距离,而范数是针对一个元素来说的,每一个元素都对应一个范数,可以将范数理解为一个元素到零点的距离(这只是一种理解,并不是定义),也就是它自己的长度。
定义:
称 映射为 上的范数,当且仅当:
- 非负性: ,当且仅当
- 数乘:
- 三角不等式:
如果我们定义了范数,可以在这基础上定义距离:dist(x,y)=||x-y||。根据范数的三条性质,我们可以证明我们这样定义的距离也满足距离的定义,聪明的你可以自己证明一下(对称性的证明,提一个-1出来,一加绝对值就是1了)。
也就是说范数其实是一个更加具体的概念,有了范数一定能利用范数定义距离,但是有距离不能定义范数。
也许你会问,你不是说理解范数就是一个元素到零点的距离吗,那定义范数为||x||=dist(x,0) 不就行了吗。这样的话,对于范数的第二条性质就不一定会满足,||ax||=dist(ax,0),而dist(ax,0)不一定等于|a|dist(x,0),具体等不等于还要看你的距离是怎么定义的。
了解到这里那么你会发现:
欧式距离对应L2范数
曼哈顿距离对应L1范数
线性赋范空间就是定义了加法、数乘和范数的空间。
巴拿赫空间就是完备的赋范线性空间。(Banach space)
完备的空间的定义:如果一个空间是完备的,那么该空间中的任何一个柯西序列都收敛在该空间之内。
首先来说一下柯西序列是什么,柯西序列就是随着序数增加,值之间的距离越来越小的序列。换一种说法是,柯西序列可以在去掉有限个值之后,使任意两个值之间的都小于任意给定正常数(其实这就是定义了一个极限而已)。
那么任意一个柯西序列都收敛在该空间内是什么意思呢,举个例子你就明白了。
设定义在有理数空间Q上的序列:,其中[x]表示x取整数部分。
对于这个数列来说,每一个元素的分子分母都是整数,所以每一个都在有理数空间Q上,那这个序列的极限呢,稍有常识的人都能看出,这个序列的极限是,而这并不是一个有理数,所以这个柯西序列的极限不在该空间里面,也就是说有理数空间Q是不完备的。
所以完备的意义我们可以这样理解,那就是在一个空间上我们定义了极限,但是不论你怎么取极限,它的极限的值都不会跑出这个空间,那么这个空间就是完备空间。
另外,不知道你有没有发现,上面在解释什么是柯西序列的时候,有一个词我加了下划线,那就是距离,也就说说在定义完备空间之前,要先有距离的概念。所以完备空间,其实也是完备度量空间。
所以,巴拿赫空间满足几条特性呢:距离、范数、完备。
内积空间就是定义了内积的空间。Inner product space
有时也称准希尔伯特空间。
内积就是我们所说的点乘、标积,它的定义方式也不是唯一的,但如同距离范数的定义一样,内积的定义也要满足某些条件,不能随便定义。
定义映射, 其中是向量,是标量
有,那么内积满足
-
第一个参数中的线性:
-
共轭对称:
-
正定性:
-
正半定性或非负定性:
-
确定性:
3,4,5可以跟上面定义范数和距离一样写成一个
例子-欧几里得向量空间:
只有定义了内积,才会有夹角的概念,才会有正交的概念,另外内积也可以定义范数,也就是说内积是比范数更具体的一个概念。
欧式空间就是定义了内积的有限维实线性空间。
希尔伯特空间就是完备的内积空间。(Hilbert space)
希尔伯特空间中的元素一般是函数,因为一个函数可以视为一个无穷维的向量。
参考:一片文章带你理解再生核希尔伯特空间(RKHS)以及各种空间
维度诅咒
维度诅咒通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。高维度有更大的特征空间,需要更多的数据才可以进行较准确的估计。
若特征是二值的,则每增加一个特征,所需数据量都在以2的指数级进行增长,更何况很多特征不只是二值的。
几何角度1:
上图表示一个多维空间(以二维为例),设正方形边长为1,则其内切圆半径为,则正方形面积为1,内切圆面积为 。若将此变为三维情况下,正方体体积为1,内切球体积为。
因此球体的体积可以表示为(d为维度),则 ,其内切超球体的体积为0。由此可知,高维情况下,数据大都分布在四角(正方形内,内切圆外),稀疏性太大,不好分类。
维度越大,超球体体积越小。说明落在超球体内的样本越少,因为超球体是超立方体的内切球。不在球内,那只能在角落!
几何角度2:
上图也表示一个多维空间(以二维为例),则其中图形的体积有如下关系:外圆半径,内圆半径为 。同样在高维情况下,外圆体积为,中间的圆环体积为,则:
高维情况下,无论多小,只要d足够大,圆环几乎占据了整个外圆,内圆体积趋向于0,导致数据稀疏。
参考:
The Curse of Dimensionality in classification
机器学习-白板推导系列(五)-降维(Dimensionality Reduction)
参考文献
[1] Hastie T,Tibshirani R,Friedman J. The Elements of Statistical Learning: DataMining,Inference,and Prediction. Springer. 2001(中译本:统计学习基础——数据挖掘、推理与预测。范明,柴玉梅,昝红英等译。北京:电子工业出版社,2004)
[2] Bishop M. Pattern Recognition and Machine Learning. Springer,2006
[3] Probabilistic Graphical Models: Principles and Techniques by Daphne Koller, Nir Friedman from The MIT Press
[4] Deep Learning (Ian Goodfellow, Yoshua Bengio, Aaron Courville)
[5] Tom M Michelle. Machine Learning. McGraw-Hill Companies,Inc. 1997(中译本:机器学习。北京:机械工业出版社,2003)
[6] Bayesian Reasoning and Machine Learning by David Barber 2007–2020 ,other version
[7] Reinforcement Learning:An Introduction (second edition 2020) by Richard S. Sutton and Andrew G. Barto ,other version
[8] 周志华,机器学习,清华大学出版社 (手推笔记 以及 公式推导解析)
[9] Lecture Notes in MACHINE LEARNING Dr V N Krishnachandran