2022-09-30 22:02阅读: 222评论: 0推荐: 0

核密度估计

核函数估计

参考这里

  • Kernel Density Estimation, KDE

  • 这个东西的目的在于使用离散的样本估计概率密度函数。

  • 公式推导:

    1:f(x)=limh0F(x+h)F(xh)2h2:f^h(x)=12nhi=1n1(xhxix+h)3:=1nhi=1n121(|xxi|h1)4:=1nhi=1nK0(xxih)

    第1行来自于概率密度函数的定义,F(x)是概率分布函数;第2行是在仅有采样数据时对定义的近似,从定义出发看h越小越好,但h太小可能会使得区间内没有足够的点用于计算概率密度;第4行中的K0在此处的推导中为K0(t)=121(|t|1)。这个函数不光滑,于是就想到把它替换掉,同时将其扩展到d维得情形,可以得到一般的形式:

    f^(x)=1nhdi=1nK(xxih)

    替换的函数需要满足:

    f^h(x)=1=1nhi=1nK0(xxih)dx=1ni=1nK0(xxih)dxxih=1ni=1nK0(t)dt=K0(t)dt

    所以只需要选取的K对概率空间积分为1就好。

  • 常见的核函数K

    假设xd维向量,cdd维空间下单位球的体积。

    上述的均匀分布函数:

    K0(x)={1cdif xTx10otherwise

    各阶导数都光滑的标准高斯:

    KG(x)=12πexp(12xTx)

    以及Epanechnikov:

    KE(x)={d+22cd(1xTx)if xTx10otherwise

    核函数

  • 直观的图形化理解:相当于是在每个采样点xi处放了个K(xxih)的概率密度分布,然后叠加在一起就构成了估计出的概率密度分布。比如下图左侧是一个二维随机变量的采样数据(为了方便演示,采样点个数取的很少,h取得也比较小),右侧对这写数据用Epanechnikov核函数估计的概率密度分布:

    image-20220930203609803

本文作者:Harold_Lu

本文链接:https://www.cnblogs.com/harold-lu/p/16746396.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   Harold_Lu  阅读(222)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起