Machine Learning---005

局部多项式回归

局部多项式回归的拟合

局部多项式回归的拟合，需要我们在每个点$x_0$完成以下目标：

\[\min_{α(x_0),β_j(x_0),j=1,...,d} ∑_{i=1}^N K_λ(x_0,x_i)[y_i - α(x_0) - ∑^d_{j=1}β_j(x_0)x^j_i]^2 \]

得到的解为

\[\hat f(x_0) = \hat \alpha (x_0) + \sum^N_{j=1}\hat \beta_j(x_0)x_0^j \]

实际上就是一种加权最小二乘，密度低的地方的数据权重小，密度高的地方的数据权重大。

局部多项式回归的性质

有偏差的话，只能至少是$d+1$次项。
偏差小的代价是方差大（过拟合）。
局部线性拟合有助于在边界处显着减小偏差，并且方差增大成本很小。局部二次拟合对在边界出减小偏差几乎没有作用，但是会大大增加方差。下图可以很好地展示这点。
边界效应在二维或更高维度中是一个更大的问题，因为边界上的点的比例更大。
局部回归的在更高维的情况下效果不是很理想。
当维度 p 增大时但样本量没有随之增大时不可能同时满足low bias和low variance。

局部似然

局部似然拟合

局部似然（线性）的拟合，需要我们在每个点$x_0$完成以下目标：

\[\max_{\beta(x_0)} ∑_{i=1}^N K_λ(x_0,x_i)l(y_i,x_i^T\beta(x_0)) \]

同样可以视为加权。稍微拓展下，将上式子改写成：

\[\max_{\theta(z_0）} ∑_{i=1}^N K_λ(z_0,z_i)l(y_i,\eta(x_i,\theta(z_0))) \]

$z$是$x $ or $y$经过变换得到的。$\eta(x,y)$是拟合成的函数形式。若取$\eta(x_i,\theta(x_0))=x_i^T\theta(x_0)$则意味着这是一个线性局部拟合。

局部似然应用

我们可将其用在时间序列上。假如我们想拟合一个 Autogressive time series model with order of k （即$y_t = \beta_0 + \beta_1 y_{t-1}+ ...+ \beta_k y_{t-k}+\epsilon_t$），我们可以设$z_t = f(y_{t-1},...,y_{t-k})$然后用上面式子拟合就成。$K_\lambda(z_0,z_i)$则可以用来控制时间序列对不同距离点的记忆能力。
我们还可以将其用在Multiclass Linear Logistic Regression上。对feature $x_i$来说，设其可能有的分类集合为 $g \in \{ 1,2,3,...,J\}$，则Linear Model有以下形式：

\[Pr(G=j|X=x)=\frac{e^{\beta_{j0}+\beta^T_jx}}{1+\sum^{J-1}_{k=1}e^{\beta_{k0}+\beta^T_kx}} \]

$J$分类的最大似然函数可被转化为：

\[\sum^N_{i=1}K_\lambda(x_0,x_i)\{ \beta_{g,0}(x_0)+\beta_{g_i}(x_0)^T(x_i-x_0) \]

\[-log [ 1+\sum^{J-1}_{k=1}exp(\beta_{k0}(x_0)+\beta_k(x_0)^T(x_i-x_0)) ] \} \]

然后求解即可。

核密度函数估计以及分类

核密度函数估计

Parzen 估计

\[\hat f_X(x_0) = \frac{∑^N_{i=1} K_λ(x_0, x_i)}{N\lambda} \]

这里$K_{\lambda}$通常是Gaussian Kernel，故：

\[\hat f_X(x) =\frac{1}{N}\sum^J_{i=1}\phi_\lambda(x-x_i) \]

这里$\phi_\lambda$表示均值为 0 标准差为$λ $的高斯密度函数。

注意：$\hat f_X(x)$在R中积分值为1，因为其是概率密度。

核函数分类

通过贝叶斯定理以直接的方式使用非参数密度估计进行分类：

\[\hat Pr(G=j|X=x_0) = \frac{\hat \pi_j \hat f_j(x_0)}{\sum^J_{k=1} \hat \pi_k \hat f_k(x_0)} \]

最后选出概率最大类别即可。

朴素贝叶斯分类器

朴素贝叶斯模型假设给定一个类$G = j$, 特征$X_k$相互独立，我们可以得到：

\[f_j(X)=\prod^p_{k=1}f_{jk}(X_k) \]

对其进行对数变化：

\[\frac{log(Pr(X|G=i))}{log(Pr(X|G=j))}=\frac{\pi_i f_i(X)}{\pi_j f_j(X)}=log\frac{\pi_i}{\pi_j}+\sum^p_{k=1}log\frac{f_ik(X_k)}{f_{jk}(X_k)}=\alpha_i + \sum^p_{k=1}g_{Ik}(X_k) \]

设$\lambda_j = \lambda$可以减少参数量，但是会产生“空穴区域”，示意图如下：

可以看到，有些地方$Pr(X|G=j)$对于所有j都几乎为0，并不能比较好地覆盖整个横轴。这些密度较低地方的X可能对计算造成严重影响。重新正则化径向基函数可以避免这个问题：

\[h_j(x)=\frac{D(||x-\xi_j||)/\lambda}{\sum^M_{k=1}D(||x-\xi_k||)/ \lambda}\]

前面图中四个处理后如下：

（参数估计未完成待补充）
Nadaraya-Watson 核估计可以视为正则化的径向基函数的扩展。

posted @ 2023-02-07 17:35 臭脚阅读(38) 评论(0) 收藏举报

刷新页面返回顶部

hejz

Machine Learning---005

Machine Learning---005

局部多项式回归

局部多项式回归的拟合

局部多项式回归的性质

局部似然

局部似然拟合

局部似然应用

核密度函数估计以及分类

核密度函数估计

Parzen 估计

核函数分类

朴素贝叶斯分类器

公告