1、为什么要分training  set和test  set?

就像考试,如果只考平时讲过的,无法判断这个learner的真实水平。需要拿一些不讲的用于test,用来测试这个learner。

Training set 训练weight,比如w;

validation set :tune hyper parameter,比如正则项中的lamda ,model 的阶数等

validation error指?

Test set 来衡量模型

注:后面说的test set 指validation set

2、分了training set  和test set以后,用于训练的数据少了,怎么办?

2.1对于model来说,数据越多,模型越准确。

2.2只选择single test set 来衡量模型不可靠,存在high variance

处理这个矛盾可以用cross validation的方法(extra-sample error estimate)

Leave one out cross validation 就是拿出一个来用于test,其它的来训练模型,重复N次 。

K-fold cross validation 分为k份数据,其它的k-1份用于训练,一份用于test,重复k次

这么多的模型,怎么进行模型好坏的度量和整合一下呢??没细讲,自己看看。

对于数据量很大的data set,不需要用上述的技巧!

MSE: mean-square error

实际建模的时候是怎么操作的?