当利用多项式对二次曲线进行拟合的时候,我们会发现如果多项式的次数比较高,为了和训练数据一致,系数会出现很多非常大和非常小的数,并且多项式函数的曲线出现很大的波动。直观上讲,M(order)的值越大,越容易受随机噪声的影响。但是,这种过似合现象会随着数据的增多而逐渐减轻,也就是说,数据量越大,越应该使用较为复杂的模型去拟合。有一种经验的说法是说,样式本的数量至少要多于所要学习的参数的5到10倍,但是有研究表明,参数的数量并不与模型的复杂度成比例,并且我们也不能根据参数的个数来选择模型的复杂度,而是应该根据问题本身。
对于过学习问题,判别模型使用正则化方法来解决(i.e., ||w||2=w20+w21+...w2m)而生成模型则用Bayesian 方法来解决(概率论),并且在这种模型中,参数的个数往往是与数据集的大小是自适应的。首先,我们假设目标值t服从均值为y(x,w)的高斯分布,然后用最大似然估计的方法进行求解。为了避免过学习问题,我们假设所要学习的参数同服从均值为0,方差为1的高斯分布(正态分布),并引入一个超参a(在实验中可以指定一个具体的数,该分布的precision值),使用bayes 公式,我们可推导出参数w的后验概率分布,这样我们就可以使用最大后验概率分布的方法(MAP)求参数w的值,并且MAP方法相当于去最小化一个带正则化项的平方和损失函数。
尽管我们引入了参数的先验知识,我们目前仍然停留在参数的点估计上,(以上为参数估计)。我们现在介绍bayes估(full bayes inference)计的方法(估计的一个分布,而不只是参数,目标不同),我们的目标是在给定训练数据x,t,以及x的条件下,估计目标值t(p(t|x,x,t))。在这里我们假设超参是一个固定值(可以推断出),如果是连续值就可以将概率密度函数写成积分的形式,(如果是离散值,就可以写成加和的形式),我们可以假设目标分布服从参数为w的高斯分布,参数w也服从正态分布(都为高斯分布,具有很好的性质,经bayes推断之后,后验分布仍为高斯分布,共轭分布),我们可以直接用解析主方法求出积分,但如果不能直接求,我们就得用近似的方法求解(如变分法),我们可以进一步求该分布的均值和方差,那么结果便在(均值+/-标准差)范围内。