Machine Learning---005

Machine Learning---005

局部多项式回归

局部多项式回归的拟合

局部多项式回归的拟合,需要我们在每个点x0完成以下目标:

minα(x0),βj(x0),j=1,...,di=1NKλ(x0,xi)[yiα(x0)j=1dβj(x0)xij]2

得到的解为

f^(x0)=α^(x0)+j=1Nβ^j(x0)x0j

实际上就是一种加权最小二乘,密度低的地方的数据权重小,密度高的地方的数据权重大。

局部多项式回归的性质

  • 有偏差的话,只能至少是d+1次项。

  • 偏差小的代价是方差大(过拟合)。

  • 局部线性拟合有助于在边界处显着减小偏差,并且方差增大成本很小。局部二次拟合对在边界出减小偏差几乎没有作用,但是会大大增加方差。下图可以很好地展示这点。
    image

  • 边界效应在二维或更高维度中是一个更大的问题,因为边界上的点的比例更大。

  • 局部回归的在更高维的情况下效果不是很理想。

  • 当维度 p 增大时但样本量没有随之增大时不可能同时满足low bias和low variance。

局部似然

局部似然拟合

局部似然(线性)的拟合,需要我们在每个点x0完成以下目标:

maxβ(x0)i=1NKλ(x0,xi)l(yi,xiTβ(x0))

同样可以视为加权。稍微拓展下,将上式子改写成:

maxθ(z0i=1NKλ(z0,zi)l(yi,η(xi,θ(z0)))

zx or y经过变换得到的。η(x,y)是拟合成的函数形式。若取η(xi,θ(x0))=xiTθ(x0)则意味着这是一个线性局部拟合。

局部似然应用

  • 我们可将其用在时间序列上。假如我们想拟合一个 Autogressive time series model with order of k (即yt=β0+β1yt1+...+βkytk+ϵt),我们可以设zt=f(yt1,...,ytk)然后用上面式子拟合就成。Kλ(z0,zi)则可以用来控制时间序列对不同距离点的记忆能力。

  • 我们还可以将其用在Multiclass Linear Logistic Regression上。对feature xi来说,设其可能有的分类集合为 g{1,2,3,...,J},则Linear Model有以下形式:

Pr(G=j|X=x)=eβj0+βjTx1+k=1J1eβk0+βkTx

J分类的最大似然函数可被转化为:

i=1NKλ(x0,xi){βg,0(x0)+βgi(x0)T(xix0)

log[1+k=1J1exp(βk0(x0)+βk(x0)T(xix0))]}

然后求解即可。

核密度函数估计以及分类

核密度函数估计

Parzen 估计

f^X(x0)=i=1NKλ(x0,xi)Nλ

这里Kλ通常是Gaussian Kernel,故:

f^X(x)=1Ni=1Jϕλ(xxi)

这里ϕλ表示均值为 0 标准差为λ的高斯密度函数。

注意:f^X(x)在R中积分值为1,因为其是概率密度。

核函数分类

通过贝叶斯定理以直接的方式使用非参数密度估计进行分类:

P^r(G=j|X=x0)=π^jf^j(x0)k=1Jπ^kf^k(x0)

最后选出概率最大类别即可。

朴素贝叶斯分类器

朴素贝叶斯模型假设给定一个类G=j, 特征Xk相互独立,我们可以得到:

fj(X)=k=1pfjk(Xk)

对其进行对数变化:

log(Pr(X|G=i))log(Pr(X|G=j))=πifi(X)πjfj(X)=logπiπj+k=1plogfik(Xk)fjk(Xk)=αi+k=1pgIk(Xk)

λj=λ可以减少参数量,但是会产生“空穴区域”,示意图如下:

可以看到,有些地方Pr(X|G=j)对于所有j都几乎为0,并不能比较好地覆盖整个横轴。这些密度较低地方的X可能对计算造成严重影响。重新正则化径向基函数可以避免这个问题:

hj(x)=D(||xξj||)/λk=1MD(||xξk||)/λ

前面图中四个处理后如下:

(参数估计未完成待补充)
Nadaraya-Watson 核估计可以视为正则化的径向基函数的扩展。

posted @   臭脚  阅读(31)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 零经验选手,Compose 一天开发一款小游戏!
· 一起来玩mcp_server_sqlite,让AI帮你做增删改查!!
点击右上角即可分享
微信分享提示