Lecture 4: Feasibility of Learning

1.学习是不可行的吗?

No Free Lunch

Learning就是对未知的 \(f\) 进行推论

2. 概率估计的方法(假设)

统计!!抽样估计

大数定理
霍夫丁不等式 \(N\) 越大, \(\nu\)\(\mu\) 越接近

3.统计和Learning的联系(一个hypothesis)

通过抽样,估计 \(h\)\(f\) 不一样的比率,类比于bin中对\(\mu\)的估计

\(E_{out}\) out-of-sample error 类比于 \(\mu\)
\(E_{in}\) in-sample eroor 类比于\(\nu\)

如果 \(A\)每次回传固定的 \(h\)

真正的学习是对 \(h\) 有选择的,

验证某个固定的 \(h\) 的表现好不好

4.统计和Real Learning的联系(多个hypothesis)

用丢铜板的栗子来说明,当能够选择的 \(h\) 变多时,会恶化不好的情形。一个铜板丢5次,5次正面朝上的几率是1/32,150个铜板(150种 \(h\))丢5次,其中有一个铜板5次正面朝上的几率大于99%。

还是丢铜板的栗子,Hoffding要说明的是 BAD的Data是很少的,所以不好的几率 (\(E_{in}\)\(E_{out}\) 差别很大)是很小的

如何有很多 \(h\) 呢?

橘色的BAD表示 存在一个 \(h\) 对该组的 Data (\(D\))不好

\(E_{in}\) 最小的 \(h_m\) 作为 g

思考题

Summary

posted @ 2018-05-07 14:19  forlenia  阅读(133)  评论(0编辑  收藏  举报