眩しさだけは、忘れなかった。|

【数理统计】分位数

上分位数和下分位数的定义

设连续型随机变量 X 的分布函数为 F(x),概率密度函数为 f(x),则:

  • 对于任意正数 α(0<α<1),称满足条件

F(xα_)=xα_f(x)dx=α

的数为此分布的 α 分位数或下 α 分位数。

理解下 α 分位数:从 xα 这个点把分布函数图像切成两个部分,左边部分面积占比 α,右边部分面积占比 1α。(下图右图)

  • 对于任意正数 α(0<α<1),称满足条件

1F(xα)=xα+f(x)dx=α

的数为此分布的上 α 分位数。

理解上 α 分位数:从 xα 这个点把分布函数图像切成两个部分,左边部分面积占比 1α,右边部分面积占比 α。(下图左图)

上分位数和下分位数的关系如下:

  • xα_=x1α
  • xα=x1α_

下分位数的直观理解

分位数是数理统计中用来描述数据分布的一种统计量,它将数据集分成若干个部分,使得每个部分包含相同数量的数据点。常见的分位数包括中位数(50%分位数)、四分位数(25%和75%分位数)等。

  • 中位数(Median):将数据分成两部分,中位数是数据中间的值,50%分位数。
  • 四分位数(Quartiles)
    • 第一四分位数(Q1):将数据下25%的点分开。
    • 第二四分位数(Q2):即中位数(50%分位数)。
    • 第三四分位数(Q3):将数据上25%的点分开。

假设有以下一组数据:

数据集:3, 7, 8, 12, 14, 18, 20
  1. 计算中位数

    • 排序后的数据为:3, 7, 8, 12, 14, 18, 20
    • 中位数(Q2)是中间的值,即 12
  2. 计算四分位数

    • 第一四分位数(Q1):前半部分数据是 3, 7, 8,中位数是 7
    • 第三四分位数(Q3):后半部分数据是 14, 18, 20,中位数是 18

上分位数的直观理解

上分位数(Upper Quantile):一个分位数 q 的上分位数是指使得有 1q 的数据点小于该分位数的值。

常见的上分位数:

  • 上四分位数(Q1):表示25%数据点大于该值,75%数据点小于该值。
  • 上中位数:在中位数(Q2)中,50%的数据点大于该值。
  • 上95%分位数(即95th Percentile):表示有5%的数据点大于该值,95%的数据点小于该值。

假设我们有一组数据,表示某个考试的分数:

数据集:55, 60, 65, 70, 75, 80, 85, 90, 95, 100

计算上分位数

  • 上四分位数(Q1)

    • Q1 = 65(25%的数据点大于65)。
  • 上中位数(Q2)

    • Q2 = 75(50%的数据点大于75)。
  • 上95%分位数

    • 95th Percentile = 95(5%的数据点大于95)。

常用分布中的分位数

不同分布的符号简写:

  • b:二项分布
  • p:泊松分布
  • u:标准正态分布
  • e:指数分布
  • z:正态分布(不一定是标准的)

正态分布

标准正态分布表

XN(0,1) 即服从标准正态分布,则分布函数记为 Φ(x)。由标准正态分布的对称性可知:Φ(x)=1Φ(x)。显然,P{x1<X<x2}=Φ(x2)Φ(x1)

  • 对于上分位数 uα,有 Φ(uα)=1α
  • 对于下分位数 uα,有 Φ(uα)=α
  • 上下分位数之间的关系有 uα=u1α(仅标准正态分布成立)

对于自由度为 n 的 t 分布也有类似的结论:tα(n)=t1α(n)。当 n(n>45) 足够大时,有:tα(n)uα

标准正态分布中常见的分位数:

  • 0.25分位数(第一四分位数 Q1):约为 -0.6745,即 u0.25=u0.750.6745
  • 0.50分位数(中位数 Q2):为 0,即 u0.50=0
  • 0.75分位数(第三四分位数 Q3):约为 0.6745,即 u0.750.6745

假设我们有一组服从正态分布 N(100,152) 的随机变量,即均值为100,标准差为15。我们可以计算这些变量的分位数。

  • 25%分位数(Q1):

    • 使用标准正态分布的Q1值:约为 -0.6745。
    • 实际分位数计算:Q1 = 100 + (-0.6745 × 15) ≈ 90.87
  • 50%分位数(Q2):

    • 使用标准正态分布的Q2值:为 0。
    • 实际分位数计算:Q2 = 100 + (0 × 15) = 100
  • 75%分位数(Q3):

    • 使用标准正态分布的Q3值:约为 0.6745。
    • 实际分位数计算:Q3 = 100 + (0.6745 × 15) ≈ 109.12

卡方分布

χ2χ2(n),则上分位数 χα2 是满足以下条件的值:

P{χ2>χα2(n)}=α

这意味着有 1α 的概率观测值会大于该上分位数值。

上分位数的应用:

  1. 假设检验:在卡方检验中,通常使用上分位数来决定拒绝域。例如,在检验两个分类变量的独立性时,可以使用卡方统计量与上分位数进行比较。
  2. 置信区间:在构建卡方分布的置信区间时,也会使用上分位数。

假设我们有一个卡方分布 χ2χ2(5),即自由度 n=5,我们想找出上5%分位数(α=0.05,即95%分位数):

  • 查卡方分布表,找到自由度为5时,与0.95对应的上分位数 χ0.052
  • 结果为大约 11.070。

这意味着在自由度为5的卡方分布中,有5%的概率观察到的值会大于11.070。类似的还有 F 分布中的上分位数,此处不再赘述。

本文作者:漫舞八月(Mount256)

本文链接:https://www.cnblogs.com/Mount256/p/18610194

版权声明:本作品采用CC 4.0 BY-SA许可协议进行许可。

posted @   漫舞八月(Mount256)  阅读(141)  评论(0编辑  收藏  举报
历史上的今天:
2022-12-16 【组成原理-处理器】流水线技术
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
展开
  1. 1 Main Menu Theme Syd Matters
  2. 2 Luminous Memory (Acyanxi Remix) Acyanxi
  3. 3 夏影 麻枝准
  4. 4 潮騒の香り 水月陵
  5. 5 stand still 井口裕香 (いぐち ゆか)
  6. 6 流星雨 麻枝准
  7. 7 Summer Fantasy 傅许
  8. 8 失う 米白
  9. 9 epilogue 霜月はるか
  10. 10 夏に君を待ちながら 小原好美
  11. 11 桜のような恋でした 鹿乃 (かの)
  12. 12 風は微かに、熱を残し… 水月陵
  13. 13 夏凪ぎ 麻枝准/やなぎなぎ
  14. 14 空に光る 戸越まごめ
  15. 15 木漏れ日 riya
  16. 16 Songbirds Homecomings (ホームカミングス)
  17. 17 宝物になった日 麻枝准/やなぎなぎ
  18. 18 夏影~あの飛行機雲を超えた、その先へ~ 雪桜草 (雪樱草)
  19. 19 快晴 Orangestar (蜜柑星P),初音未来 (初音ミク)
  20. 20 永遠 霜月はるか
  21. 21 Sion 天門
  22. 22 遙かな年月-piano- 麻枝准
  23. 23 夏恋慕 kobasolo/春茶
  24. 24 夏凪ぎ-piano ver.- MANYO/麻枝准
  25. 25 Goodbye Seven Seas -piano ver.- MANYO/麻枝准
  26. 26 Light Years 麻枝准/やなぎなぎ
  27. 27 優しさの記憶 鹿乃 (かの)
夏影 - 麻枝准
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.