Pearson相关性分析 —— 入门案例

简介

Pearson相关系数

Pearson相关系数是一种统计方法,用于衡量两个连续变量之间的线性相关程度。Pearson相关系数的值范围从-1到1,其中:

  • 接近1的值表示两个变量之间存在强正线性关系。
  • 接近-1的值表示两个变量之间存在强负线性关系。
  • 接近0的值表示两个变量之间没有线性关系。

Pearson相关系数可以用来判断数据是否线性相关,但需要注意以下几点:

  • 它只能检测线性关系,不能检测非线性关系。
  • 它假设两个变量都是连续的,并且分布接近正态分布。
  • 它对异常值敏感,异常值可能会对相关系数的计算结果产生较大影响。

Pearson相关系数的计算公式:
image

其中:

  • \(X_i\)\(Y_i\) 分别是 \(X\)\(Y\) 的第i个观测值。
  • \(\overline{X}\)\(\overline{Y}\) 分别是 \(X\)\(Y\) 的平均值。

利用P值检验

Pearson相关系数告诉我们变量之间是否存在线性关系以及这种关系的强度,但并不告诉我们这种关系是否具有统计显著性。p值提供了这种显著性的证据。因此,它们一起使用可以更全面地评估变量之间的关系。

  • p值越小,表示观察到的数据与零假设的偏差越大,即我们越有理由拒绝零假设,认为两个变量之间存在某种关系。
  • 通常,如果p值小于某个显著性水平(如置信水平0.05),我们认为结果具有统计显著性,即两个变量之间存在显著的相关性。

运行结果

image

根据结果,人均 GDP 和预期寿命之间的皮尔逊相关系数为 0.76,表示两个变量之间存在较强的正相关关系。p 值非常小(远小于置信水平 0.05),因此我们可以拒绝零假设,认为人均 GDP 和预期寿命之间存在显著的线性相关性。

Full Code

import numpy as np
from scipy.stats import pearsonr

# 第一列代表GDP,第二列代表人均寿命
gdp = np.array([62794, 39286, 47603, 42943, 41464, 34483, 46233, 31362, 11289, 8920,
                9771, 2010, 57305, 30371, 9946, 3894, 52367, 23219, 9370, 82950])
life_expectancy = np.array([78.5, 84.1, 80.8, 80.9, 82.3, 82.8, 81.9, 82.0, 72.4, 75.1,
                            76.4, 68.8, 82.6, 83.1, 75.0, 71.5, 81.6, 74.8, 77.4, 83.3])

corr, p_value = pearsonr(gdp, life_expectancy)

print(f"皮尔逊相关系数: {corr:.2f}")
print(f"p 值: {p_value:.4f}")

posted @ 2024-08-29 23:43  AnUpdatingHam  阅读(21)  评论(0编辑  收藏  举报