【机器学习基石笔记】四、无法学习?
天下没有白吃的午餐,从样本内到样本外永远无法估计。
抽样的话,样本内频率和样本外概率相等PAC (probably approximately correct)
一个重要的事情是样本要在总体分布中取。
Ein(h) = sum(isSame(yHatn, yn))
只要N足够大, Ein和Eout就很接近。得到这个结论根本不需要f和P,不需要得到X的分布。
如果H集是有限的,那么样本内最好的一个确实是最好的。最好的一个也能保证Ein和Eout比较接近