机器学习-bias and variance

0. Error(误差)、Bias(偏差)和Variance(方差)

模型性能度量

误差期望值

1. bias与 Variance区别

bias: 度量了某种学习算法的平均估计结果所能逼近学习目标的程度;(一个高的偏差意味着一个坏的匹配)
variance :则度量了在面对同样规模的不同训练集时分散程度。(一个高的方差意味着一个弱的匹配,数据比较分散)

Error = Bias + Variance

Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度
Variance反映的是模型每一次输出结果与模型输出期望(平均值)之间的误差,即模型的稳定性,数据是否集中。

2. 解决bias和Variance问题的方法:

2.1 在训练数据上面,我们可以进行交叉验证(Cross-Validation)。

一种方法叫做K-fold Cross Validation (K折交叉验证), K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。

  • 当K值大的时候,我们会有更少的Bias(偏差), 更多的Variance。
  • 当K值小的时候,我们会有更多的Bias(偏差), 更少的Variance。

3. Boosting or Bagging

Boosting通过样本变权全部参与,故Boosting 主要是降低 bias(同时也有降低 variance 的作用,但以降低 bias为主);
而 Bagging 通过样本随机抽样部分参与(单个学习器训练),故bagging主要是降低 variance

参考文献

posted @ 2022-03-23 11:08  topbookcc  阅读(138)  评论(0编辑  收藏  举报
/* 鼠标点击求赞文字特效 */