百度文库机器学习第六节 note model selection - madao_00191980

1、为什么要分training set和test set？

就像考试，如果只考平时讲过的，无法判断这个learner的真实水平。需要拿一些不讲的用于test，用来测试这个learner。

Training set 训练weight，比如w；

validation set ：tune hyper parameter，比如正则项中的lamda ，model 的阶数等

validation error指？

Test set 来衡量模型

注:后面说的test set 指validation set

2、分了training set 和test set以后，用于训练的数据少了，怎么办？

2.1对于model来说，数据越多，模型越准确。

2.2只选择single test set 来衡量模型不可靠，存在high variance

处理这个矛盾可以用cross validation的方法（extra-sample error estimate）

Leave one out cross validation 就是拿出一个来用于test，其它的来训练模型，重复N次。

K-fold cross validation 分为k份数据，其它的k-1份用于训练，一份用于test，重复k次

这么多的模型，怎么进行模型好坏的度量和整合一下呢？？没细讲，自己看看。

对于数据量很大的data set，不需要用上述的技巧！

MSE： mean-square error

实际建模的时候是怎么操作的？

发表于 2013-04-02 23:11 madao_00191980 阅读(141) 评论(0) 编辑收藏举报