机器学习模型 bias 和 variance 的直观判断

　　假设我们已经训练得到一个模型，那么我们怎么直观判断这个模型的 bias 和 variance？

　　　　如果模型的训练错误比较大，并且验证错误和训练错误差不多一样，都比较大，我们就认为这个模型是高bias 的，或者说它是 underfit 。

　　　　如果模型的训练错误比较小，但是验证错误比较大远大于训练错误，我们就认为这个模型是高variance，或者说它是 overfit。

　　　　如果一个模型是高 bias 的（underfitting），那么可以认为这个模型不仅没有很好的表示测试数据集上数据内含的结构，而且它也没有很好表示整体数据集上数据内含的结构；

　　　　如果一个模型是高 variance的（overfitting），那么通常认为这个模型很好的表示了训练集上数据内含的结构，

　　　　　　但是，我们要明白：

　　　　　　　　首先，从统计学上的观点看，这个训练数据集是真实整体数据集的一个样本数据集，所以，数据集不一定完全内含整体数据集的结构；

　　　　　　　　其次，这些数据都是测量来的，往往都存在误差，不管是测量上的，还是系统本身就有的，这些误差本身也会有某些结构；

　　　　　　如果训练的模型也内含了这些误差的结构，那么...

　　　　总之，不管上面哪种情况或者还是同时出现，即使训练得到的模型很好的拟合了训练集，训练错误很小；但，当推广或者泛化到新的数据集上时，这个模型的预测结果就会下降很多。

posted @ 2016-01-15 17:08 simplelovecs 阅读(926) 评论(0) 收藏举报

刷新页面返回顶部