1、为什么要分training set和test set?
就像考试,如果只考平时讲过的,无法判断这个learner的真实水平。需要拿一些不讲的用于test,用来测试这个learner。
Training set 训练weight,比如w;
validation set :tune hyper parameter,比如正则项中的lamda ,model 的阶数等
validation error指?
Test set 来衡量模型
注:后面说的test set 指validation set
2、分了training set 和test set以后,用于训练的数据少了,怎么办?
2.1对于model来说,数据越多,模型越准确。
2.2只选择single test set 来衡量模型不可靠,存在high variance
处理这个矛盾可以用cross validation的方法(extra-sample error estimate)
Leave one out cross validation 就是拿出一个来用于test,其它的来训练模型,重复N次 。
K-fold cross validation 分为k份数据,其它的k-1份用于训练,一份用于test,重复k次
这么多的模型,怎么进行模型好坏的度量和整合一下呢??没细讲,自己看看。
对于数据量很大的data set,不需要用上述的技巧!
MSE: mean-square error
实际建模的时候是怎么操作的?