曲线拟合问题 - Lei-Blog

曲线拟合问题

当利用多项式对二次曲线进行拟合的时候，我们会发现如果多项式的次数比较高，为了和训练数据一致，系数会出现很多非常大和非常小的数，并且多项式函数的曲线出现很大的波动。直观上讲，M(order)的值越大，越容易受随机噪声的影响。但是，这种过似合现象会随着数据的增多而逐渐减轻，也就是说，数据量越大，越应该使用较为复杂的模型去拟合。有一种经验的说法是说，样式本的数量至少要多于所要学习的参数的5到10倍，但是有研究表明，参数的数量并不与模型的复杂度成比例，并且我们也不能根据参数的个数来选择模型的复杂度，而是应该根据问题本身。

对于过学习问题，判别模型使用正则化方法来解决（i.e., ||w||²=w²₀+w²₁+...w²_m)而生成模型则用Bayesian 方法来解决（概率论），并且在这种模型中，参数的个数往往是与数据集的大小是自适应的。首先，我们假设目标值t服从均值为y(x,w）的高斯分布，然后用最大似然估计的方法进行求解。为了避免过学习问题，我们假设所要学习的参数同服从均值为0，方差为1的高斯分布（正态分布），并引入一个超参a(在实验中可以指定一个具体的数，该分布的precision值),使用bayes 公式，我们可推导出参数w的后验概率分布，这样我们就可以使用最大后验概率分布的方法（MAP）求参数w的值,并且MAP方法相当于去最小化一个带正则化项的平方和损失函数。

尽管我们引入了参数的先验知识，我们目前仍然停留在参数的点估计上，（以上为参数估计）。我们现在介绍bayes估（full bayes inference）计的方法（估计的一个分布，而不只是参数，目标不同），我们的目标是在给定训练数据x,t,以及x的条件下，估计目标值t（p(t|x,x,t)）。在这里我们假设超参是一个固定值（可以推断出），如果是连续值就可以将概率密度函数写成积分的形式，（如果是离散值，就可以写成加和的形式），我们可以假设目标分布服从参数为w的高斯分布，参数w也服从正态分布（都为高斯分布，具有很好的性质，经bayes推断之后，后验分布仍为高斯分布,共轭分布），我们可以直接用解析主方法求出积分，但如果不能直接求，我们就得用近似的方法求解（如变分法），我们可以进一步求该分布的均值和方差，那么结果便在（均值+/-标准差）范围内。

posted on 2012-09-05 21:40 Lei-Blog 阅读(853) 评论(0) 编辑收藏举报

刷新页面返回顶部

Lei's Blog

公告