《白话统计&&白话统计学》

一、术语

1.1 总体和样本,参数和统计量

  • 总体(population):
  • 样本:总体的子集
  • 参数(parameter):总体数据计算的值,适用于总体
  • 统计量(statistic):样本数据计算的值
  • 描述统计(descriptive):描述收集数据样本或总体的信息
  • 推断统计(inferential):假定收集的样本能够代表更大的总体,利用样本数据得到总体特征的一些结论。
    注意:总体可大可小,要看你想研究什么对象;样本不一定能代表总体,假如不能代表总体,此时得到的样本统计量只能用于描述统计,而不能推断总体参数。

1.2抽样

  • 随机抽样(random sampling):每一个样本被选中的概率相等。
  • 典型抽样(representative sampling):人为的有意选取样本某些特征和总体相匹配。如总体中男女比例7:3,样本选取是男女比例也是7:3。
  • 方便抽样(convenience sampling):根据地理位置、接触难度、参与意愿来选择样本。

1.3变量类型和测量尺度

(1)变量类型

  • 定量/连续(continuous)变量:身高
  • 定性/分类(categorical)变量:男女(二值变量dichotomous variable)
    (2)测量尺度
  • 定类尺度:又叫分类数据,特点是不可排序不可运算。比如,国籍,不能说中国大于美国。只能对面人口、面积。又比如男女
  • 定序尺度:特点是可以排序但不可以运算。比如,健康状况(优良中差),优比良好,但是‘’优‘’减不了‘’良‘’
  • 定矩尺度:0点有意义,比如年份1987,零点可以是公元0年,耶稣出生那年。当然0点可以随意定义,假如你统治了时间,你可以把0点定为你出生那年,只要有意义即可。
  • 定比尺度:0点无意义,比如体重56公斤,0公斤没有意义。

后两种数据统称为数值数据。可以排序可以运算。

1.4研究设计

  • 实验组设计:将样本分成不同组,然后对感兴趣的一个或多个变量进行组间比较。如:AB test
  • 相关性研究设计:收集若干变量数据,进行统计分析以确定不同变量之间彼此相关的强度。

实验性设计变量因素可控、可分离,但也很难排除所有的干扰因素。相关性研究设计易于实施,但无法施加精准控制。相关性研究只能提供变量间是否相关的信息(统计理论信息),不能得出实际的因果关系结论(实际业务信息)。

二、分布的集中趋势和分散变异

2.1集中趋势

  集中趋势:又称“数据的中心位置”、“集中量数”,一组数据的代表值。是用来描述舆论现象的重要统计分析指标。
(1) 均值(算术平均数)mean
  描述平均水平。理论计算方式:

  • Outliers(异常值、极端值):数据集中会包含一个或多个数值异常大或异常小的值。异常值检查方法——(四分位计算法)。
  • 数据偏斜(skewed data)现象:when the outliers “pull” the data to the left or right。
  • Mean最大的缺陷——受outliers影响较大。所以mean最适用的情况为:
    The data is symmetric(均匀的)
    With the one trend(趋势)均值回归
    (2)中位数
      定义:将数据按大小顺序(从大到小或是从小到大都可以)排列后处于中间位置的数。
  • 理论计算方式——从小到大排序,分为两种情况:
  1. n=odd number(奇数),median position=(n+1)/2
  2. n=even number(偶数),median positon=n/2 or n/2+1,so median=two median number/2
  • 最适用的情况:the data is skewed by outliers.因为中位数不受outliers影响,只跟序列的位置有关。
    (3)四分位数quartile
      定义:把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。
  • 下四分位数:Q1,从小到大的顺序排序排在第25%位置的数字。
  • 上四分位数:Q3,在第75%位置的数字
  • 四分位距interquartile range:IQR,等于Q3-Q1,衡量数据离散程度的一个统计量
  • Quartile作用——检查异常值tukey test:
    最小值估计=Q1-K * IRQ
    最大值估计=Q3+K * IRQ
    其中,K=1.5(中度异常)/3(极度异常)
  • 理论计算方式:
  1. 方式一,基于n基础
    Q1的位置= (n+1) × 0.25
    Q2的位置= (n+1) × 0.5
    Q3的位置= (n+1) × 0.75
  2. 方式二,基于n-1基础
    Q1的位置=1+(n-1)x 0.25
    Q2的位置=1+(n-1)x 0.5
    Q3的位置=1+(n-1)x 0.75
    如果算出来是小数,取下一个最近的整数。

(4)众数mode——定类数据

  • 数据中出现次数最多的数(所占比例最大的数),可能会存在多个众数(多峰),也可能不存在众数。

  • 适用的情况:不仅适用于数值型数据,对于非数值型数据也同样适用。
    (5)mean、median、mode三者比较

  • Mean>median:数据向右偏(正偏,尾部趋向高端),右端可能存在极大值(右边有大的数据,拉高平均值)

  • Mean<median:数据向左偏(负偏,尾部趋向低端),左端可能存在极小值(左边有小的数据,拉低平均值)

  中位数位置不变,均值被拉向尾巴一端。比如最大的数为100时,中位数和均值相等,变成200后(正偏),均值被拉大,中位数不变。

(6) 异常值检查方法
异常值检查方法

2.2 离散程度和相关性

  对于离散程度的程度衡量,可以只针对单一变量自身离散程度,如极差、方差、标准差、变异系数等;也可以针对多变量的离散程度之间的相关性,如协方差、相关系数、皮尔森系数。

  • 极差range:max()-min()

  • 四分位差interquartile range:75%-25%(分成四组,包含中间两组数)

  • 离差deviation:点到均值之差。与原单位相同

  • 离差平方和:离差的平方后求和相加。消除正负抵消,相加为0。单位:原单位的平方。平方和基础统计学的重要组成部分。

  • 方差variance:点到均值的距离平方(离差平方)和的平均,单位:原单位的平方。一般不用来描述分布,用来作为计算其他统计量(如方差分析)的一个步骤,而不是单独使用的统计量。

  • 标准差stardard deviation:方差开方,单位:和原单位相同。更喜欢用标准差描述一个分布中取值的平均离散程度。结合均值可以很好描述一个分布的形态。

  • 变异系数(coefficient of variation):

  变异系数CV,又称“离散系数”(英文:coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。单位:无量纲。

  • 协方差:

  假若有两个变量X,Y,每个时刻的“X值与其均值只差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值。
  反映两个变量在变化过程中,是同向变化还是反向变化,同向或反向的程度如何:

  1. 你变大,我也变大,说明两变量是同向变化,协方差为正;
  2. 你变大,同时我变小,说明两变量是反向变化,协方差为负;
  3. 协方差数值越大,两变量同向程度也越大,反之亦然。
  • 相关系数:

      用X、Y的协方差除以X的标准差和Y的标准差。相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
      也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负;
      由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。
  • 皮尔森系数(pearson):

参考网站:
协方差和相关系数史诗级白话介绍:协方差和相关系数

三、分布

3.1 累计函数和概率密度函数

参考网站:累计函数和概率密度函数
①离散型数据
概率函数(概率分布、分布律):离散随机变量X取不同的值,对应不同的概率值。
概率分布函数(累计概率函数)F(x):概率函数取值的累加结果。

②连续型数据
概率密度函数(连续型数据概率函数)f(x):连续型数据,某点的概率为0。只能用某点数据密集程度表示概率分布情况。

  左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。

3.4 正态分布(Normal Distribution)

(1)正态分布描述现象

  普通分布,描述某些稳定但又受到一些偶然因素影响的现象。

(2)正态分布概率密度函数

(3)正态分布密度函数数学意义

  • f(x)永远大于0,左右对称,当x=μ,即等于均数时,概率密度函数达到最大值;
  • x离均数越远,f(x)值越小,距离无限远时,趋于0;
  • 标准差σ越大,f(x)值越小,分布形状越“矮”,峰度平坦;反之,越’瘦高‘。
  • 中位数=均值=众数
      正态分布由两个参数决定:均数和标准差。均数是位置参数,决定分布集中的位置;标准差是形状参数,决定分布的分散程度。

(4)正态分布统计规律

  • 1倍标准差面积:68.2%
  • 1.96倍标准差:95%
  • 2倍标准差:95.4%
  • 3倍标准差:99.7%,1000大概会有3次错误发生的概率。
  • 6倍标准差:之外的面积为百万分之2。100万份样品出现2次错误。

  比如,X变量(身高)服从:X~N(μ,σ2),其中μ=170,σ=10,则95%的人身高值都落在[150.4,189.6]之间。
  假若是有偏分布,再用正态分布的统计规律去估算概率,就会变得不准确。比如,正偏分布(多数取值位于较小一端,少数取值位于较大一端),从正态分布得出的概率将低估较小一端的实际取值个数,高估较大一端实际取值个数。

(5)小概率事件(P<0.05)

  P<0.05,认为差异有统计学意义。对于正态分布来说,两侧面积小于5%。即均数往左往右各1.96倍标准差时,对应的左侧和右侧面积之和就是5%。这个概率很低,一般情况不会发生,认为是小概率事件。

(6)标准正态分布——Z分数(Z变换)(Standarized Normal Distribution)

为什么要进行Z变换?——消除不同测量单位的差异,类似于方差和标准差思想。
例子
  生物100分,考了65分;统计学200分,考了42分。哪门成绩更好?假如“更好”意味着答题正确率,显然生物更好。但是这不公平,因为题目难度不一样,统计学比生物难太多。公平的做法是,与全班同学相比,成绩处于哪个百分点。
  生物:μ=60,σ=10,意味着分数比均值高5分(0.5个标准差);
  统计:μ=37,σ=5 ,意味着分数比均值高5分(1.0个标准差);

3.5 几个常见分布:t分布、x2分布,F分布

  T检验对应t分布,x2检验对应x2分布,方差分析对应F分布。

(1)T分布

(2)x2分布

(3)F分布

四、数据资料分类

五、描述统计

六、中心极限定理和大数定理

七、假设检验

7.2 零假设和备择假设

零假设(无效假设Null Hypothesis):一般从正面做出假设(不具备XXX,没有XXX等)。

八、参数估计

九、置信区间

十、统计方法串讲

10.1 一般线性模型(General Linear Model)——方差分析与线性回归统计

①t检验、方差分析、线性回归用途

  • t检验——两组均值比较
  • 方差分析——多组均值比较
  • 线性回归——自变量对因变量的影响分析
    ②一般线性模型
    t检验、方差分析、线性回归等都属于一般线性模型,一般线性模型基本形式:

      y:因变量(反应变量、结局变量),x:自变量(解释变量、预测变量)。β0表示截距,反映自变量x=0时,y的均值。β1、β2表示斜率,反映自变量增加1单位,y值变动的大小。
      一般线性模型中,因变量必须是定量的(连续),自变量可以是定量或分类。自变量的不同形式对应不同的统计方法:

十一、正态性和方差齐性

①做正态性检验必要性
  保证样本数据的随机性,因为随机数就是正态分布的。
②正态性和方差齐性含义
  正态性和方差性是经典统计模型应用的两个前提条件,t检验、方差分析、线性回归等都需要满足这两个条件:

  • 正态性(Normality):严格上说是残差要符合正态分布,不过实际中都是对因变量进行正态性检验。
  • 方差齐性(Equality of Variances):即方差相等,自变量x每取一个值,因变量(严格说是残差)的方差基本相等。

11.1 用统计检验方法判断正态性

(1)基于峰度和偏度的SW(Shapiro-Wilk)检验

①峰度和偏度

  • 峰度(Kurtosis):分布形状是平坦还是尖峰,上下维度。
  • 偏度(Skewness):分布形状是否对称,左右维度。
    ②正态分布的峰度和偏度
      正态分布的峰度和偏度均为0。峰度>0,尖峰;峰度<0,平坦峰。偏度>0,右偏态(正偏);偏度<0,左偏态(负偏)。

(2)基于拟合优度KS、CVM、AD检验

KS(Kolmogorov-Smirnov)、CVM(Cramer-von Mises)、AD(Anderson-Darling)
①拟合优度思想
  基于理论分布与基于实际数据得到的分布之间的差异。这种思想不仅可以用于正态分布,还可以用于其他分布检验。
②正态分布拟合优度检验思路
  先求出正态分布的累积分布函数(CDF,Cumulative Distribution Function)——>样本数据与该函数差别——>差别不大,接近正态分布——>差别较大,样本数据可能不服从正态分布。
③三种方法对“差别”的定义
三种检验都基于此思想,区别在于对“差别”定义:

  • KS:取绝对值
  • CVM:取平方
  • AD:对CVM的改进

④参考网站
KS:KS
python正态检验方法:python正态检验方法

11.2 用描述的方法判断正态性——图形判断

(1)Q-Q图和P-P图

①Q-Q图含义和检验原理
  Q-Q(Quantile-Quantile),分位数-分位数图。横坐标,理论正态分位数,纵坐标,实际数据分位数。
  比较分位数和实际分位数差别。无差别,点集中在一条直线,正态分布。有差别,偏离直线较远。
②P-P图
  P-P(Probability-Probability),和Q-Q类似,用的是累计概率。

(2)茎叶图

(3)用四分位数间距和标准差进行简易判断

  正态分布四分位间距(IQR)和标准差(s)之比大约为1.34。若IQR/s=1.34左右,基本满足正态分布。

11.3 方差分析中方差齐性判断

①方差齐性判断
  就是判断两组或多组的方差是否相等,样本抽样是不是随机的。方差不等会严重影响方差分析的F检验。
②各种检验方法
...................................

十二、T检验

posted @ 2021-05-18 15:53  Lu-顺  阅读(1938)  评论(0编辑  收藏  举报