统计学习方法——P1
背景基础知识备忘
平均差
MD=(∑|xi-x'|)/n
加权平均差
A.D=(∑|xi-x'|fi)/∑fi
方差
标准差
![](http://f.hiphotos.baidu.com/baike/s%3D110/sign=713b5351f21f3a295ec8d1cfa924bce3/d000baa1cd11728bba7f7eadcafcc3cec2fd2ceb.jpg)
![](http://f.hiphotos.baidu.com/baike/s%3D99/sign=3152ef8b369b033b2888f0d314cef56c/810a19d8bc3eb135d6824534a41ea8d3fc1f44fc.jpg)
![](http://e.hiphotos.baidu.com/baike/s%3D390/sign=88c7c48459b5c9ea66f305eae538b622/2e2eb9389b504fc2693e428ae7dde71191ef6dd8.jpg)
![](http://d.hiphotos.baidu.com/baike/s%3D266/sign=da850b006e81800a6ae58e08873733d6/a5c27d1ed21b0ef410086ad1dfc451da80cb3e58.jpg)
![](http://e.hiphotos.baidu.com/baike/s%3D59/sign=9b6b73cd8326cffc6d2abfbbb801aaca/d439b6003af33a87c57e054ec75c10385343b556.jpg)
![](http://g.hiphotos.baidu.com/baike/s%3D116/sign=e0120b973b87e9504617f76d2638531b/4ec2d5628535e5ddb103a18b77c6a7efce1b62b2.jpg)
![](http://d.hiphotos.baidu.com/baike/s%3D183/sign=1012f33314ce36d3a604873809f23a24/b8389b504fc2d562ce92df04e61190ef77c66c44.jpg)
期望
离散型:
离散型随机变量的一切可能的取值xi与对应的概率Pi(=xi)之积的和称为该离散型随机变量的数学期望
连续型:
若随机变量X的分布函数F(x)可表示成一个非负可积函数f(x)的积分,则称X为连续性随机变量,f(x)称为X的概率密度函数(分布密度函数)。
监督学习:
目标:学习出一个模型对于给定输入,对其相应输出做出很好的预测
训练数据集:T={(xi,yi)} i=1,2,3.......N
统计学习要素:
方法=模型+策略+算法
模型:所要学习的条件概率分布或者决策函数
策略:略 损失最小的最优化的目标函数
算法:学习模型的计算方法
exp:
损失函数 L(Y,f(x)) f(x)为预测值:
0-1损失:
L(Y,f(x))=1 Y !=f(x)
L(Y,f(x))=0 Y==f(x)
平方损失:
L(Y,f(x))=∑(Y-x')2
绝对损失:
L(Y,f(x))=|Y-f(x)|
对数损失 对数似然损失函数:
L(Y,P(Y|X))=-logP(Y|X)
损失期望函数:
Rexp (f)=Ep [L(Y,f(x))]=∫x*y L(y,f(x))p(x,y)dxdy 为模型联合分布的期望损失
由于对联合分布概率 p(x,y) 未知 对训练集T有经验损失为
Rexp (f)=(∑L(yi,f(xi)))/N i=1,2,3,4.......N 为模型的平均损失
由大数定理:当样本容量N趋向于无穷时,经验损失趋向于期望损失 由于N在实际问题中不可能趋向于无穷,用平均损失估计期望损失不准确,必须对他校正
方法有:1 经验风险最小化 2 结构风险最小化
经验风险最小化: 对于假设空间F
min (∑L(yi,f(xi)))/N 的模型为最佳模型
结构风险最小化:
min (∑L(yi,f(xi)))/N+λJ(f) J(f)为模型复杂度 模型越复杂 J(f)越大 反之亦然 λ为系数 用来权衡经验风险和模型复杂度
以上为背景知识,下一篇看模型评估以及模型选择