Crush Course 统计学笔记

Crush Course 统计学

Ref : 十分钟速成课:统计学

知名人物

卡尔 皮尔逊(Karl Pearson): 统计学之父

1 - 什么是统计学

女士品茶:1920年左右剑桥英式下午茶时间一位女士认为牛奶先加或后加将影响茶的口感,因此将八杯茶打乱以区分口感,但为区分胡猜和舌头灵的界限,Fisher提出实验设计法使统计学严谨起来。

统计学领域:收集和分析数据的实践活动

统计学:数据的总合(summaries)

代理变量(Proxy):与所求结果相关但并非其自身

描述(Descriptive)统计学:研究数据中心位置(集中趋势的度量 即数据分布特征的度量)。压缩总结大量非直观数据以得出有用信息

推断(Inferential)统计:超出当前数据的推断,如简单抽样。不同问题有不同评判标准,亦有不同实验方法,具有不确定性,是否信服取决于主观意见

2 -- 数理思维

数理思维以不同的方式观察世界,进行超越本能和直觉的思考

科学计数法便于表示大数,但不利于大数理解:
方式一:由小及大,从1想象到1,000,000,000
方式二:带入语境,均分到每个人
方式三:转换单位成熟悉的度量方式
方式四:找参照物,以物体替代,比如一百万人能装下几个足球场

大数定律:群体或样本足够大时,小概率事件完全可能发生
应用:7.6亿人则罕见疾病便会出现,或出现连续两期彩票号码相同

极小数概率:不以物喜不以己悲,在不必要事情上节约时间,如中大乐透最终大奖概率3.206亿分之一,与在美国患埃博拉病毒概率相似

数理思维不仅在于理解数字,而更在于提出优秀的问题并以数字表示出来

Abraham Wald 统计飞机弹孔分布位置,并基于所有位置中弹几率相同的假设下,提出加强飞机没有弹孔的位置,考虑到数据的片面性即幸存者偏差

3 -- 数据的集中趋势

均值(mean)/算术平均数/数学期望:全部数据求和除以数据个数,描述数据整体正常情况而选择性忽略个体异常情况,具有误导性

正常数据:数据分布在两侧的频数基本相同,且大多数数据集中在中端(如正态分布)

分布(Distribution):每个数据在数据集中出现频率,即频数

异常值(outlier):极大或极小数据,极易改变平均值

中值(median):将数据从小到大进行排序时,最中间的数字

众数(mode):最大众的数据,体现个体对总体的支撑程度,样本足够大时更可信

双峰数据(Bimodel data):两个频繁出现的值,源自两个基群,如好评组与差评组,如午餐时间和晚餐时间

零偏(zero skew):均值与中数相同意味数据分布对称

偏态分布(skewed):存在极端值,但众数仍是最多的值,中值仍是最中间值,但平均数将偏向异常值方向

4 -- 数据的离散分布

离散程度(Dispersion):数据如何分布在平均数、中位数附近,以判断信息可信度

极差:最大占比与最小占比的差值显示两端间的差距,差距越大,离散程度越高

四分位距(InterQuarter Range, IQR):着重描绘中位数附近的数据,对目标受众描述更为精确,即找到核心受众

方差(variance):样本偏离趋势,计算方式--数据各点与均值相减所得进行平方再除以样本总数

样本方差估计原始数据总体方差将出现偏差,因此计算样本方差时样本数量减一才与总体方差相同(无偏估计)

标准差:方差开根号,样本平均与均值的偏离,采用标准差判断均值可靠性

5&6 -- 数据可视化

定量(Quantitative)数据:原始数据进行排序,计算趋势如均值或标准差

定性(Categorical)数据:不同类别

频数表:以出现次数展示类别型数据

频率表:以总体占比展示数据

条形图(Bar Chart):出现频数的展示

直方图(Histograms):连续的数据之间的条柱没有间距,便于读出频率,数据分布趋势

饼图(Pie Chart):相对频率表的直观展示

象形图(Pictograph):以物品大小或数目展示数据(修改起始点夸张化成果)

定级(binning):对不同量级进行分门别类,如分成童年、少年、青年、老年

Trick:通过改变数据定级间距进行合并数据量级实现迷惑性[7:14]

点数图(Dotplot):点的个数描述频数

散点图(scatterplot): 两个变量之间的相关性P8

茎叶图(Stem&leaf plot):将数字按数位分开填在表的不同位置

Stem&Leaf plot

箱型图(Boxplots): 箱子覆盖数据四分位距,即25%~75%的位置,中位数表示成贯穿竖线,界限是箱子左右1.5倍盒长的位置,正常数据均分布于此

boxplots

异常值(Outliers): 小概率事件或错误数据,小概率事件仍有价值

累计频数表(cumulative frequency plots): 将前面频数累加进目前频数

7 -- 数据的分布

根据样本分析出总体的分布,将样本看作特定的分布

分布图(Distribution):展现数据全部取值及对应可能性

正态分布(normal distribution/bell curve):均值、众数、中位数相等,由均值和标准差决定

均匀分布(uniform distribution): 均匀分布的每个值都是等可能的

偏态(skew)

某个双峰数据分布可能是两个正态分布的叠加

8 -- 相关≠因果

一个变量A与另一个变量B有相关性,A->B or B->A or C->A、B or 巧合(假性相关,即两个完全无关但就是意外的出现联系)

双变量数据(Bivariate Data):两个连续变量之间的关系

散点图:看出两种变量之间的关系

回归线(regression line): 与所有点距离之和最小的直线

回归系数(regression coefficient): 回归线斜率

相关性(correlation): 两个变量之间变化的方向性和紧密性

修改单位可能招致回归线平缓,但相关性并没有变化

平方相关系数(square correlation): r^2介于0-1,一个变量对另一个变量的影响能力,能有多大把握推算出另一个变量

数据蜥蜴图

9 -- 对照试验

随机分配减小系统之间的差异

分配性误差(Allocation bias): 实验人员将爱喝咖啡的分配到喝咖啡组

选择性误差(Selective bias): 爱喝茶的倾向于选择不喝咖啡组

随机性减小分组差异,重复实验进一步降低不平衡性

对照组(control): 没有任何变化的世界

安慰剂效应(Placebo effects): 潜意识的偏见

单盲实验(single blind study): 受试者不知自己处于何组,仅实验者清楚

双盲实验(double build study): 受试者和实验者均不知自己是何组

配对实验(matched-pairs experiments): 使用多组相似对象,一组A处理,另一组B处理

重复测量设计(repeated measures design): 同一个人进行两种不同处理

10 - 抽样方法与统计误差

非实验方法:调查问卷(survey)、人口普查(census)

问卷调查survey: 调查内容与问题相关、多项选择应提供所有可能项、提问具有中立性即不进行诱导型提问(有心之士故意以有偏妥的提问获得希望的结果)、调查方法主要采用随机抽样,调查费用高昂(集群抽样方式解决)、样本数量应当足够大(罕见病采用滚雪球抽样)

人口普查census:对全部人口进行问卷调查,可用于统治者定税率,可提供最真实人口数据以最小化采样误差用于统计推断、但耗时耗力

随机抽样random sampling:存在无响应性偏差现象(调查者与期望调查者重合度低,即调查者不能代表整体)、代表性不足(不涵盖少数群体),可进行加权处理、分层随机抽样

抽样方式分类:随机抽样、分层随机抽样、集群抽样、滚雪球抽样

Voluntary response Bias:例如客户满意度调查:回应者不代表总人口,往往是具有极端意见,而正常顾客因服务质量不值得注意而不愿意回应

总之:谨慎防范1.具诱导措辞的调查 2.虚假调查 3.具有偏向性的调查

11 - 科普文章

When a study reports correlations of has mice as its main population, the results it declares may not be quite fair.So be careful about generalization.

Jogn Bohannon--记者/博士: 杜撰并宣扬巧克力能减肥,将谣言变成新闻头条,最后全球铺天盖地宣传,无求证亦无参考佐证,实验随机性极高

随机设计和对照组极其重要!

当研究报告某些重要结论时,必然会轻描淡写甚至无视其副作用,而统计指标可能不提及效果以及剂量以混淆视听。

阅读科学报告时,注意:作者是谁?出版社是谁?实验者是谁?赞助机构是谁?赞助者往往希望从研究中获得既有利益!

12 - 数据收集伦理

IRB:监督所有研究使之符合道德标准

参与者必须“自愿”,禁止通过权力、金钱强制参与实验

受试者必须保确知情权,尊重自主选择权

有益性:最小化对受试者构成风险的可能性,且风险小于潜在利益

纽伦堡法典规定现代研究必须遵循的十项原则

13|14 - 概率论

经验概率Empirical Probability:实际数据中观察到的(不确定性+随机性)

理论概率Theoretical Probability

加法原理:P(A+B)=P(A)+P(B)-P(AB), 注意减去不互斥事件的重复项P(AB)

乘法原理:P(AB)=P(A)P(B)

独立事件:两个事件的发生相对独立,即条件概率等于自身概率

条件概率:P(B|A) = P(AB) /P(A)

维恩图Venn Diagram分析

贝叶斯定理:P(B|A = P(A|B)P(B) / P(A))

伟大之处在于能实时根据已有信息进行更新

大数定律几乎适用于所有分布(方差无限大不适用),从而实现样本估计总体

频率论统计:T检验

15 - 二项分布

二项式系数公式(binomial coefficient formula): \(nC_k = \frac{n!}{(n-k)! k!}\)

计算从n个东西选择k个共有几种选择方式

$ binom(n,k) = nC_k(p)^k (1-p)^{n-k}$

均值 n*p

特例:伯努利分布

16 - 几何分布

几何分布(geometric probability distribution):

\(geom(k;p)=(1-p)^{k-1}p\)

目标事件第一次成功p在第k次尝试的概率

均值:1/p (首次成功的次数)

累计几何分布: 事件在第n次前就已经发生的概率,即预测等待时间

生日悖论:20个人中生日重叠的概率约是41%,70人中重叠概率约99.9%

概率只是一种算术常识,敏锐的人使用直觉感知却无法解释——拉普拉斯

17 - 随机性

随机变量的个体值具有不可预测性,多个值具有整体行为性

统计学在混乱的随机性下做出更明智的选择

而模拟实验是最佳方式来了解期望及方差

数据的二阶矩(减去均值后平方),三阶矩--偏态:在某一方法存在更多极端值

一阶矩(均值)告知分布的大致位置

二阶矩(方差)展示一阶矩(均值)有多可靠,即样本偏离趋势

三阶矩偏态告诉二阶矩是否可靠,分布出现偏斜则该方向的方差将极高

四阶矩:峰态,衡量分布拖尾程度,即有数字距离均值很远的可能性多高

18 - Z分位点

标准化:不同的尺度进行比较实现目的

  1. 全部数值减去均值以得到以零作中心的分布 2.通过 标准差缩放 衡量比较目标距离平均值的距离

Z分位点(Z-score):标准化后的分数

通过标准化z-table查找自己的Z分位数在全体的百分比

标准正态分布/z分布:均值是0,标准差是1

z分位数表示以标准差为单位的分布均值和数值点的距离

19 - 正态分布

关注样本均值的抽样分布 —— 抽样分布

抽样分布总是符合正态分布(中心极限定理):一个独立随机变量的抽样分布无论初始分布如何,随样本量逐渐增大将趋近正态分布

乘法原理解释大数据量的分布为何最终符合正态分布

20 - 置信区间

“confidence interval”:基于观测结果给出的合理估计值范围,中心是均值,但有范围

根据数据得到基于样本均值的分布,最常见95%样本均值的范围称95%置信区间,95%意味着从100个样本中计算置信区间将有约95个包含总本均值

下图是抽查100个样本,均值是3,标准差是0.5

z分布计算置信区间

用z分位点找到95%的位置,标准误差=标准差/根号(样本总量)=0.5/√100

左2.5%=-1.96,右97.5%=1.96(查表可知)

只有5%的几率出错,采样值落在置信区间即可

tradeoff:置信区间足够窄到结果有意义与足够宽到大部分情况包含总本均值

通常用t分布计算置信区间,表示采样分布,根据信息数量改变形状

有许多种t分布,置信区间=mean ± t_value * stardard error

样本量小t分布尾部粗,表示没有太多数据时估计更不稳定

大于30认为样本足够大,此时t分布将接近z分布

t分布

边际误差(margin of error):反映样本总本参数的不确定性,认定成真实总本参数的合理预测值

置信区间量化不确定性,且进行准确性和精度的权衡

21-23 假设检验与P值

样本参数例如均值是被抽取的人群的均值估计,也许样本均值不接近真实的总体均值

需要测试假设并考虑随机扰动的样本均值,而测试假设的方法是检测其与数据拟合程度

无效假设显著性检验(NHST):减少荒谬验证的一种形式,通过假设这个想法是真实的,以“证伪”一个想法,意味着你的假设与结论产生矛盾(反证法)

P值(P-value):衡量通常普通数据与观测数据一样极端的概率,即衡量自己数据是否罕见极端,如P=0.1,即自行观测样本处于期望的基于样本均值分布的前10%,用于证伪而非证明

双侧p值

如果假设“想法真实”,将有18%的概率会单纯因为随机抖动看到此类样本

截断值=0.05,即p值小于0.05足以作为证据拒绝“想法真实”的观点,希望样本值在分布中前5%的极端数据中

截断值α的争议性:但也有可能5%的样本更符合原假设,因此医药学中不同意0.05,而倾向于0.01甚至0.0005

P值地意义:P(data|null):无效假设成立前提下,获得比无效假设更极端地样本。但其若不低过阈值,将不能拒绝假设,从而得不出任何有意义的结论

第Ⅰ类错误:假阳性(取伪):认为已经发现某种效应但实际没有,杞人忧天型

第Ⅱ类错误,假阴性(弃真):有实际效应但未观测到,亡羊补牢性

假阴性与假阳性的tradeoff

统计功效:1-β,P23下

效应量:

24-25 贝叶斯假设检验

一旦拥有新信息,就更新旧有信念

$ \frac{P(H_1|data)}{P(H_2|daata)} = \frac{P(H_1)\times P(data|H_1)}{P(H_2)\times P(data|H_2)}$

后验概率依据实验者先验概率,因此存在贝叶斯因子\(\frac{P(data|H_1)}{P(data|H_2)}\)

26 z检验

随机性使真实差异与随机变化难以区分

检验统计(Test statistic):确认关系是否真实存在,量化事物与期望/理论的接近程度

z检验:适用于已知通用样本均值的情况,检验假设是否成立

z-statistics:\(z = \frac{x-\mu}{\sigma}\) 其中 x是样本均值,u是真实群体标准误差,o是标准差

样本群的z统计量:\(z_{group}=\frac{\hat{x}_{group}-\mu}{\sigma / \sqrt n}\)

t检验:\(t = \frac{\hat x - \mu}{sd/\sqrt n}\)

当样本容量逐渐增大时,t检验接近z检验

z分布与t分布

z-统计量在[-1,1]之间是样本均值与假设的典型均值基本一致,否则更极端

α值:临界值,比临界值大则证否零假设;p值:业界常用0.05,小于0.05亦然

p值小于0.05意味着样本处于极端的5%中,则与假设相悖

27 - 配对T检验

通用公式:\(Test \ statistic=\frac{Observed\ data-原假设均值}{Average\ Variation}\)

两组样本平均方差Average Variation :标准差= \(\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}\)

双样本T检验(独立T检验):随机分配人群到两个组

配对T检验:两个组的人相同

t统计量意义:观测的差值相距平均差值有多少个标准误差,几乎所有数据均位于两个标准误差内,差异超过0.5个标准误差影响已经很大

正态分布标准偏差范围

28 - 自由度与效应值

自由度(freedom):数据中独立信息的数量,根据自由度选择t检验形状

已知n个样本的均值,则自由度仅剩n-1个

效应值(Effect Size):与随机变化比,观察到的效应有多大,即是否具有实际意义

posted @ 2019-10-26 17:31  WindyZ  阅读(1243)  评论(0编辑  收藏  举报