《白话统计&&白话统计学》

一、术语
二、分布的集中趋势和分散变异
- 2.1集中趋势
- 2.2 离散程度和相关性
三、分布
四、数据资料分类
五、描述统计
六、中心极限定理和大数定理
七、假设检验
- 7.2 零假设和备择假设
八、参数估计
九、置信区间
十、统计方法串讲
- 10.1 一般线性模型（General Linear Model）——方差分析与线性回归统计
十一、正态性和方差齐性
十二、T检验

一、术语

1.1 总体和样本，参数和统计量

总体（population）：
样本：总体的子集
参数（parameter）：总体数据计算的值，适用于总体
统计量（statistic）：样本数据计算的值
描述统计（descriptive）：描述收集数据样本或总体的信息
推断统计（inferential）：假定收集的样本能够代表更大的总体，利用样本数据得到总体特征的一些结论。
注意：总体可大可小，要看你想研究什么对象；样本不一定能代表总体，假如不能代表总体，此时得到的样本统计量只能用于描述统计，而不能推断总体参数。

1.2抽样

随机抽样（random sampling）：每一个样本被选中的概率相等。
典型抽样（representative sampling）：人为的有意选取样本某些特征和总体相匹配。如总体中男女比例7:3，样本选取是男女比例也是7:3。
方便抽样（convenience sampling）：根据地理位置、接触难度、参与意愿来选择样本。

1.3变量类型和测量尺度

（1）变量类型

定量/连续（continuous）变量：身高
定性/分类（categorical）变量：男女（二值变量dichotomous variable）
（2）测量尺度
定类尺度：又叫分类数据，特点是不可排序不可运算。比如，国籍，不能说中国大于美国。只能对面人口、面积。又比如男女
定序尺度：特点是可以排序但不可以运算。比如，健康状况（优良中差），优比良好，但是‘’优‘’减不了‘’良‘’
定矩尺度：0点有意义，比如年份1987，零点可以是公元0年，耶稣出生那年。当然0点可以随意定义，假如你统治了时间，你可以把0点定为你出生那年，只要有意义即可。
定比尺度：0点无意义，比如体重56公斤，0公斤没有意义。

后两种数据统称为数值数据。可以排序可以运算。

1.4研究设计

实验组设计：将样本分成不同组，然后对感兴趣的一个或多个变量进行组间比较。如：AB test
相关性研究设计：收集若干变量数据，进行统计分析以确定不同变量之间彼此相关的强度。

实验性设计变量因素可控、可分离，但也很难排除所有的干扰因素。相关性研究设计易于实施，但无法施加精准控制。相关性研究只能提供变量间是否相关的信息（统计理论信息），不能得出实际的因果关系结论（实际业务信息）。

二、分布的集中趋势和分散变异

2.1集中趋势

集中趋势：又称“数据的中心位置”、“集中量数”，一组数据的代表值。是用来描述舆论现象的重要统计分析指标。
（1）均值（算术平均数）mean
描述平均水平。理论计算方式：

Outliers（异常值、极端值）：数据集中会包含一个或多个数值异常大或异常小的值。异常值检查方法——（四分位计算法）。
数据偏斜（skewed data）现象：when the outliers “pull” the data to the left or right。
Mean最大的缺陷——受outliers影响较大。所以mean最适用的情况为：
The data is symmetric（均匀的）
With the one trend（趋势）均值回归
（2）中位数
定义：将数据按大小顺序（从大到小或是从小到大都可以）排列后处于中间位置的数。
理论计算方式——从小到大排序，分为两种情况：

n=odd number（奇数）,median position=(n+1)/2
n=even number（偶数）,median positon=n/2 or n/2+1,so median=two median number/2

最适用的情况：the data is skewed by outliers.因为中位数不受outliers影响，只跟序列的位置有关。
（3）四分位数quartile
定义：把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。
下四分位数：Q1，从小到大的顺序排序排在第25%位置的数字。
上四分位数：Q3，在第75%位置的数字
四分位距interquartile range：IQR，等于Q3-Q1，衡量数据离散程度的一个统计量
Quartile作用——检查异常值tukey test：
最小值估计=Q1-K * IRQ
最大值估计=Q3+K * IRQ
其中，K=1.5（中度异常）/3（极度异常）
理论计算方式：

方式一，基于n基础
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
方式二，基于n-1基础
Q1的位置=1+（n-1）x 0.25
Q2的位置=1+（n-1）x 0.5
Q3的位置=1+（n-1）x 0.75
如果算出来是小数，取下一个最近的整数。

（4）众数mode——定类数据

数据中出现次数最多的数（所占比例最大的数），可能会存在多个众数(多峰)，也可能不存在众数。
适用的情况：不仅适用于数值型数据，对于非数值型数据也同样适用。
（5）mean、median、mode三者比较
Mean>median：数据向右偏（正偏，尾部趋向高端），右端可能存在极大值（右边有大的数据，拉高平均值）
Mean<median：数据向左偏（负偏，尾部趋向低端），左端可能存在极小值（左边有小的数据，拉低平均值）

中位数位置不变，均值被拉向尾巴一端。比如最大的数为100时，中位数和均值相等，变成200后（正偏），均值被拉大，中位数不变。

（6）异常值检查方法
异常值检查方法

2.2 离散程度和相关性

对于离散程度的程度衡量，可以只针对单一变量自身离散程度，如极差、方差、标准差、变异系数等；也可以针对多变量的离散程度之间的相关性，如协方差、相关系数、皮尔森系数。

极差range：max()-min()
四分位差interquartile range：75%-25%（分成四组，包含中间两组数）
离差deviation：点到均值之差。与原单位相同
离差平方和：离差的平方后求和相加。消除正负抵消，相加为0。单位：原单位的平方。平方和基础统计学的重要组成部分。
方差variance：点到均值的距离平方（离差平方）和的平均，单位：原单位的平方。一般不用来描述分布，用来作为计算其他统计量（如方差分析）的一个步骤，而不是单独使用的统计量。
标准差stardard deviation：方差开方，单位：和原单位相同。更喜欢用标准差描述一个分布中取值的平均离散程度。结合均值可以很好描述一个分布的形态。

变异系数（coefficient of variation）：

变异系数CV，又称“离散系数”（英文：coefficient of variation），是概率分布离散程度的一个归一化量度，其定义为标准差与平均值之比。单位：无量纲。

协方差：

假若有两个变量X,Y，每个时刻的“X值与其均值只差”乘以“Y值与其均值之差”得到一个乘积，再对这每时刻的乘积求和并求出均值。
反映两个变量在变化过程中，是同向变化还是反向变化，同向或反向的程度如何：

你变大，我也变大，说明两变量是同向变化，协方差为正；
你变大，同时我变小，说明两变量是反向变化，协方差为负；
协方差数值越大，两变量同向程度也越大，反之亦然。

相关系数：

用X、Y的协方差除以X的标准差和Y的标准差。相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差。
也可以反映两个变量变化时是同向还是反向，如果同向变化就为正，反向变化就为负；
由于它是标准化后的协方差，因此更重要的特性来了：它消除了两个变量变化幅度的影响，而只是单纯反应两个变量每单位变化时的相似程度。
皮尔森系数（pearson）：

参考网站：
协方差和相关系数史诗级白话介绍：协方差和相关系数

三、分布

3.1 累计函数和概率密度函数

参考网站：累计函数和概率密度函数
①离散型数据
概率函数（概率分布、分布律）：离散随机变量X取不同的值，对应不同的概率值。
概率分布函数（累计概率函数）F(x)：概率函数取值的累加结果。

②连续型数据
概率密度函数（连续型数据概率函数）f(x)：连续型数据，某点的概率为0。只能用某点数据密集程度表示概率分布情况。

左边是F(x)连续型随机变量分布函数画出的图形，右边是f(x)连续型随机变量的概率密度函数画出的图像，它们之间的关系就是，概率密度函数是分布函数的导函数。

3.4 正态分布（Normal Distribution）

（1）正态分布描述现象

普通分布，描述某些稳定但又受到一些偶然因素影响的现象。

（2）正态分布概率密度函数

（3）正态分布密度函数数学意义

f(x)永远大于0，左右对称，当x=μ，即等于均数时，概率密度函数达到最大值；
x离均数越远，f(x)值越小，距离无限远时，趋于0；
标准差σ越大，f(x)值越小，分布形状越“矮”，峰度平坦；反之，越’瘦高‘。
中位数=均值=众数
正态分布由两个参数决定：均数和标准差。均数是位置参数，决定分布集中的位置；标准差是形状参数，决定分布的分散程度。

（4）正态分布统计规律

1倍标准差面积：68.2%
1.96倍标准差：95%
2倍标准差：95.4%
3倍标准差：99.7%，1000大概会有3次错误发生的概率。
6倍标准差：之外的面积为百万分之2。100万份样品出现2次错误。

比如，X变量（身高）服从:X~N（μ,σ2），其中μ=170，σ=10，则95%的人身高值都落在[150.4,189.6]之间。
假若是有偏分布，再用正态分布的统计规律去估算概率，就会变得不准确。比如，正偏分布（多数取值位于较小一端，少数取值位于较大一端），从正态分布得出的概率将低估较小一端的实际取值个数，高估较大一端实际取值个数。

（5）小概率事件（P<0.05）

P<0.05，认为差异有统计学意义。对于正态分布来说，两侧面积小于5%。即均数往左往右各1.96倍标准差时，对应的左侧和右侧面积之和就是5%。这个概率很低，一般情况不会发生，认为是小概率事件。

（6）标准正态分布——Z分数（Z变换）（Standarized Normal Distribution）

为什么要进行Z变换？——消除不同测量单位的差异，类似于方差和标准差思想。
例子：
生物100分，考了65分；统计学200分，考了42分。哪门成绩更好？假如“更好”意味着答题正确率，显然生物更好。但是这不公平，因为题目难度不一样，统计学比生物难太多。公平的做法是，与全班同学相比，成绩处于哪个百分点。
生物：μ=60，σ=10，意味着分数比均值高5分（0.5个标准差）；
统计：μ=37，σ=5 ，意味着分数比均值高5分（1.0个标准差）；

3.5 几个常见分布：t分布、x2分布，F分布

T检验对应t分布，x2检验对应x2分布，方差分析对应F分布。

（1）T分布

（2）x2分布

（3）F分布

四、数据资料分类

五、描述统计

六、中心极限定理和大数定理

七、假设检验

7.2 零假设和备择假设

零假设（无效假设Null Hypothesis）：一般从正面做出假设（不具备XXX，没有XXX等）。

八、参数估计

九、置信区间

十、统计方法串讲

10.1 一般线性模型（General Linear Model）——方差分析与线性回归统计

①t检验、方差分析、线性回归用途

t检验——两组均值比较
方差分析——多组均值比较
线性回归——自变量对因变量的影响分析
②一般线性模型
t检验、方差分析、线性回归等都属于一般线性模型，一般线性模型基本形式：

y：因变量（反应变量、结局变量），x：自变量（解释变量、预测变量）。β0表示截距，反映自变量x=0时，y的均值。β1、β2表示斜率，反映自变量增加1单位，y值变动的大小。
一般线性模型中，因变量必须是定量的（连续），自变量可以是定量或分类。自变量的不同形式对应不同的统计方法：

十一、正态性和方差齐性

①做正态性检验必要性
保证样本数据的随机性，因为随机数就是正态分布的。
②正态性和方差齐性含义
正态性和方差性是经典统计模型应用的两个前提条件，t检验、方差分析、线性回归等都需要满足这两个条件：

正态性（Normality）：严格上说是残差要符合正态分布，不过实际中都是对因变量进行正态性检验。
方差齐性（Equality of Variances）：即方差相等，自变量x每取一个值，因变量（严格说是残差）的方差基本相等。

11.1 用统计检验方法判断正态性

（1）基于峰度和偏度的SW（Shapiro-Wilk）检验

①峰度和偏度

峰度（Kurtosis）：分布形状是平坦还是尖峰，上下维度。
偏度（Skewness）：分布形状是否对称，左右维度。
②正态分布的峰度和偏度
正态分布的峰度和偏度均为0。峰度>0，尖峰；峰度<0，平坦峰。偏度>0，右偏态（正偏）；偏度<0，左偏态（负偏）。

（2）基于拟合优度KS、CVM、AD检验

KS（Kolmogorov-Smirnov）、CVM（Cramer-von Mises）、AD（Anderson-Darling）
①拟合优度思想
基于理论分布与基于实际数据得到的分布之间的差异。这种思想不仅可以用于正态分布，还可以用于其他分布检验。
②正态分布拟合优度检验思路
先求出正态分布的累积分布函数（CDF，Cumulative Distribution Function）——>样本数据与该函数差别——>差别不大，接近正态分布——>差别较大，样本数据可能不服从正态分布。
③三种方法对“差别”的定义
三种检验都基于此思想，区别在于对“差别”定义：

KS：取绝对值
CVM：取平方
AD：对CVM的改进

④参考网站
KS：KS
python正态检验方法：python正态检验方法

11.2 用描述的方法判断正态性——图形判断

（1）Q-Q图和P-P图

①Q-Q图含义和检验原理
Q-Q（Quantile-Quantile），分位数-分位数图。横坐标，理论正态分位数，纵坐标，实际数据分位数。
比较分位数和实际分位数差别。无差别，点集中在一条直线，正态分布。有差别，偏离直线较远。
②P-P图
P-P（Probability-Probability），和Q-Q类似，用的是累计概率。

（2）茎叶图

（3）用四分位数间距和标准差进行简易判断

正态分布四分位间距（IQR）和标准差（s)之比大约为1.34。若IQR/s=1.34左右，基本满足正态分布。

11.3 方差分析中方差齐性判断

①方差齐性判断
就是判断两组或多组的方差是否相等，样本抽样是不是随机的。方差不等会严重影响方差分析的F检验。
②各种检验方法
...................................

十二、T检验

posted @ 2021-05-18 15:53 Lu-顺阅读(2065) 评论(0) 编辑收藏举报

刷新页面返回顶部

数据の变异

今天你又博学了吗？多走前人的路，让后人少走路！