学习理论
1 基本概念
输入空间、特征空间与输出空间
在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间,可以是有限元素空间也可以是整个欧式空间,输入输出空间可以是同一空间也可以是不同空间,通常输出空间远远小于输出空间
每个具体的实例通常由特征向量表示,特征向量的空间成为特征空间,有时假设输入空间与特征空间为相同空间,对他们不区分,有时假设输入空间和特征空间为不同空间,将实例从输入空间映射的特征空间
模型实际都是定义在特征空间上的
联合概率分布
监督学习假设输入与输出随机变量X和Y遵循联合概率分布P(X,Y). 在学习过程中,假设这个联合概率分布存在,是监督学习关于数据的基本假设
假设空间
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型表示。模型属于输入空间到输出空间的映射的集合,这个集合就是假设空间
2 统计学习三要素
2.1 模型
模型的假设空间包含所有可能的条件概率分布或决策函数
假设空间用F表示 非概率模型
F = {f| Y = fθ(x),θ属于Rn} , 参数向量θ取值n维欧式空间,称为参数空间
假设空间也可以定义为 概率模型
F = {P| Pθ(Y|X),θ属于Rn}
2.2 策略
怎样选择最优模型?
2.21 损失函数
预测值f(X)可能与真实值不一致,用损失函数(loss function)或代价函数(cost function)度量预测错误的程度,损失函数是f(X)和Y的非负实值函数,记为L(Y,f(x)).
常用的损失函数有
(1) 0-1损失函数(0-1 loss function):
(2) 平方损失函数(quadratic loss function)
(3) 绝对损失函数(absolute loss function)
(4) 对数损失函数(logarithmic loss function) 或对数似然损失函数(log-likelihood loss function)
损失函数越小,模型就越好。
(5)指数损失函数 (Adaboost)
(6) Hinge损失函数(SVM)
2.2.2风险函数
2.2.3 经验风险最小化
2.2.4 结构风险最小化
2.3 算法
通过上面的讲解,统计学习问题归结为了最优化问题,见机器学习常见的最优化算法
3 模型评估与模型选择
3.1 训练误差与测试误差
3.2 过拟合与模型选择
3.3 正则化与交叉验证(模型选择方法)
4 泛化能力
泛化误差
泛化误差上界
5 生成模型与判别模型
生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型
典型的生成模型有
Gaussian mixture model and othertypes of mixture model
HiddenMarkov model
NaiveBayes
AODE
LatentDirichlet allocation
RestrictedBoltzmann Machine
判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,判别方法关心的是对给定的输入X,应该预测什么样的输出Y.典型的判别模型包括
k近邻、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、提升方法、条件随机场等
Logisticregression
Lineardiscriminant analysis
Supportvector machines
Boosting
Conditionalrandom fields
Linearregression
Neuralnetworks