线性回顾-generalize issue
Ein的平均,Eout的平均
用这个平均来justify linear regresssion能够用的很好
noise level 资料里有多少的杂讯
等一下要证明的事情
predictions
+ dagger
hat矩阵
为什么叫hat矩阵? y 乘上hat矩阵就加上了一个帽子
统计的人取得名字
hat矩阵用来做什么呢?
y是在N为空间里的向量,y投影到X张成的空间。把X的column做线性组合。
我们希望y和yhat的差别越小越好。
y-y^垂直于x张成的空间
I-H求余数
H投影
trace(I-H)对角线上的所有值加起来
物理意义:N个自由度的向量,投影到d+1的空间,余数的自由度最多N-(d+1)这么多
理想的target function
y是理想的目标函数f(x)+noise
Ein的平均怎么来的?
偏向noise Ein好看一点
Eout难看
最多长到noise的平方
所谓的generalization error是Ein和Eout差多少
学习发生了