机器学习基石第四讲 Feasibility of Learning
一.Learning is Impossible?
从上面的例子,可以看出,从我们现有的知识,机器学不出东西。。。。
二.Probability to the Rescue
probably是指十之八九的可能性;possibly是指可能性很小的可能性;approximately是指差不多
(3) N = 10
|v - μ| ≤ 0.3
P(|v - μ| > 0.3) ≤ 2*eˆ(-2*0.3ˆ2*10) = 0.33
(4) N = 10
P = C(N,1) * 0.4 * 0.6ˆ9 ≤ 0.05
三.Connection to Learning
我们把bin和learning做一个类比,h = f时看作orange,h ≠ f时看作green
Eout是整个data上h和f一不一样
Ein是我们手上的sample里h和y是否一样
fixed h很大可能得到一个很大的Ein
真正的学习是要有选择的,需要从一个大的H中选择g
我们手里有了一个h,这时我们需要进行verification,如果在未来的100天很接近,也就是Ein很小,这是我们可以推断Eout很能也很小。
四.Connection to Real Learning
当我们有选择的时候,出现错误的概率也越来越大
在某些sample的情况下Ein可能很小,但Ein和Eout差距很大
hoeffding是在一把的情况下,Ein和Eout差距大的概率很小
一个h时,计算出的选到bad data的概率
D1126才是good data,其他在选择演算法的时候,都或多或少是bad data