Loading

帕累托分布&广义帕累托分布

PDF、PMF、CDF

概率论中PDF、PMF和CDF的区别与联系

1. 概念解释

  • PDF:概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
  • PMF:概率质量函数(probability mass function), 在概率论中,概率质量函数是离散随机变量在各特定取值上的概率。
  • CDF:累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。

2. 数学表示

2.1 PDF

如果XX是连续型随机变量,定义概率密度函数为\(f_X(x)\),用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率,即

image-20210115165154446

2.2 PMF

如果XX离散型随机变量,定义概率质量函数为\(f_X(x)\),PMF其实就是高中所学的离散型随机变量的分布律,即

image-20210115170542614

2.3 CDF

不管是什么类型(连续/离散/其他)的随机变量,都可以定义它的累积分布函数,有时简称为分布函数。

  • 对于连续型随机变量,显然有:

    image-20210115171314920

    那么CDF就是PDF的积分,PDF就是CDF的导数

  • 对于离散型随机变量,其CDF是分段函数,比如举例中的掷硬币随机变量,它的CDF为:

    image-20210115171329186

Pareto(帕累托)分布

Survial function 生成函数

The survival function is also known as the survivor function[2] or reliability function.[3]

又称 complementary cumulative distribution function.

image-20210115205259956

其实就是1-CDF

Pareto distribution

https://en.wikipedia.org/wiki/Pareto_distribution

image-20210115210930502
  • 注意形状参数\(\alpha\)必须是正的!
image-20210115211037169 image-20210115211117408 image-20210115211137423

Generalized Pareto distribution

https://en.wikipedia.org/wiki/Generalized_Pareto_distributionimage-20210115220131433

image-20210115220237496
  • 注意:形状参数(或者称为尾部指数)\(\xi\in(-\infty,+\infty)\)
    image-20210115220851212

因此,GP 分布是指数分布 (k = 0) 和帕累托分布 (k>0) 的广义化。GP 将这两个分布包括在更大的族中,因此可以实现连续的形状范围。

Matlab实现

利用广义帕累托分布对尾数据建模

https://ww2.mathworks.cn/help/stats/examples/modelling-tail-data-with-the-generalized-pareto-distribution.html

广义帕累托 (GP) 分布是一种右偏态分布,使用形状参数 k 和尺度参数 sigma 进行参数化。k 也称为“尾部指数”参数,可以为正值、零或负值。

x = linspace(0,10,1000);
plot(x,gppdf(x,-.4,1),'-', x,gppdf(x,0,1),'-', x,gppdf(x,2,1),'-');
xlabel('x / sigma');
ylabel('Probability density');
legend({'k < 0' 'k = 0' 'k > 0'});

image-20210115221229210

其他代码见链接!

posted @ 2021-01-15 22:18  摇头晃脑学知识  阅读(8314)  评论(1编辑  收藏  举报