统计学基础知识

为理解下面的知识需要先区分好下面几个概念：

总体均值：$u$
总体标准差：$σ$
样本均值：$u'$
样本标准差：$σ'$
样本中符合条件A的占比：$p'$
是样本大小：$n$
总体大小：$N$

抽样

数据分析中，虽然数据越多越齐越好，可是受限于各类因素的制约，我们并不能获取全部的数据。比如Excel的性能限制，比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。
抽样是一种应对方法，通过样本来推断总体，抽样结果提供的仅仅是相应总体特征的估计，「估计」这一点很重要。
抽样有很多方式，样本首要满足随机性。比如进行社会访谈，你不能只选择商场人流区，因为采访到的人群明显是同一类人群，反而会遗漏郊区和乡镇的人群，遗漏宅男，遗漏老人。
互联网产品中，抽样也无处不在，大名鼎鼎的AB测试就是一种抽样，选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字，比如末尾选择0～4，于是抽样出了50%的用户，这既能保证随机性，也能保证控制性。
毕竟抽样的目的是验证和检验，需要始终保证用户群体的完全隔离，不能用户一会看到老界面，一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战，用户分群等。
至于放回抽样，分层抽样，在互联网的数据分析中用不太到，这里就略过了。

点估计

设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知, 借助于总体 X 的一个样本来估计总体未知参数的值的问题称为点估计问题.在统计学中，把总体的平均值标准差等称为总体参数，把样本的种种指标称为点估计量。

总体分布的参数在很多情况下是未知的，如均值$μ$、方差$\sigma^2$、泊松分布的$λ$、二项分布的比例$π$，其它分布还会有更多的未知参数，需要通过样本进行相应的估计，这种估计值就是点估计。

对于总体均值$μ$，$\overline μ=\overline x$
对于总体方差$\sigma^2$，$\overline \sigma^2 = S^2$；
对于总体比率$π$，$\overline \pi=\frac{x}{n}$，$x$是样本量为$n$的随机样本中特定事件发生的次数；
对于泊松总体的$λ$，$\overline λ=\overline x = \frac{1}{n} \sum_{i=1}^m x_i n_i$，其中$n$为总样本量，$x_i$为随机变量X的取值，$n_i$为每个取值出现的次数，$n=\sum_{i=1}^m n_i$ 。

点估计的评价

无偏性：如果参数估计值的数学期望等于被估计的参数值，则称此估计量为无偏估计。与此相反则称为有偏估计。

需要注意的是，虽然$S^2$是$\sigma^2$的无偏估计，但$S$不是$σ$的无偏估计，其值要略小一些，尤其是小样本时，差距会非常明显。为解决这个问题，需要加以修正。

类似的，另一种估计$σ$的方法是用样本的极差$R$，如果样本被分成若干子组，对于每组都可以先求组内极差$R$，对于多组$R$可以求出其平均值$\overline R$，然后将$\overline R$除以$d_2$。例如，如果每子组只含2个样品时，$d_2$=1.128，这样$\overline R/1,128$也是$σ$的无偏估计，但是也只考虑了组内的波动。用极差来估计标准差的方法在控制图、测量系统分析、过程能力分析等工具中广泛运用。

有效性：当一个参数有多个无偏估计时，估计方差越小则越有效。

相合性(一致性)：如果随着样本量增大，参数的估计量趋于被估计的参数值。

区间估计

点估计是用于估计总体参数的样本统计量，我们不可能通过点估计就给出总体参数的一个精确值，更稳妥的方法是加减一个边际误差，通过一个区间值来估计。如何找到一个合适的估值范围，这是置信区间要解决的问题。
置信区间涉及两个问题，一个是置信水平，另一个是如何建立置信区间。所谓置信水平就是一个区间的信心，这个信心以概率来表示，绝大多数情况下取0.95，表示你对所估计的总体参数有95%的信心落在你所给的区间内。通常置信水平以$1-α$表示，$α$称为显著性水平，在后面假设检验中会重点介绍。
置信区间的建立就与中心极限定理和抽样分布有关了，在给定置信度的条件下，置信区间的宽度决定于抽样分布。下面介绍分别介绍单总体均值、方差和单总体比例的置信区间。更复杂的如双总体均值差、双总体比率差等置信区间的建立请参与相关教科书。
建立置信区间的意思是在设定的置信水平(如取0.95)下，总体参数落在这个区间的概率为0.95，大致的理解是如果抽100次样，建立100个置信区间，大约95个区间包含总体参数，约5个区间不包含总体参数(注意不是一定有5个，可能会多，也可能会少)。

单总体均值的置信区间

1、总体方差已知时，正态总体均值服从正态分布，即：

\[Z = \frac{\overline x-\mu}{\sigma/\sqrt{n}} \sim N(0,1) \]

取概率$P(z_1 \leq Z \leq z_2 )=1-\alpha$，即在置信度为$(1-α)$时，求出$z_1$和$z_2$两个值，通常选择置信区间左右对称，将$α$分成相等的两部分。这样$z_1$和$z_2$就分别等于$z_{\alpha/2}$和$z_{1-\alpha/2}$。如果$α$取0.05，则两个值分别为-1.96和1.96。将$Z$带入，则可以算出

\[-z_{1-\alpha/2}=z_{\alpha/2} \leq \frac{\overline x-\mu}{\sigma/\sqrt n} \leq z_{1-\alpha/2} \]

由此得出：

\[\overline x - z_{1-\alpha/2} \frac{\sigma}{\sqrt n} \leq \mu \leq \overline x + z_{1-\alpha/2} \frac{\sigma}{\sqrt n} \]

所以总体方差已知时，正态总体均值的置信区间为

\[(\overline x - z_{1-\alpha/2} \frac{\sigma}{\sqrt n},\overline x + z_{1-\alpha/2} \frac{\sigma}{\sqrt n}) \]

2、总体方差未知，用样本标准差$S$来代替$α$，这时正态总体的置信区间要用$t-$分布来计算，结论直接给出

\[(\overline x - t_{1-\alpha/2} (n-1) \frac{S}{\sqrt n},\overline x + t_{1-\alpha/2} (n-1) \frac{S}{\sqrt n}) \]

通常来说，总体方差已知是很罕见的，因此大部分情况下我们都是用$t-$分布来计算置信区间。

3、在大样本情况下，依据中心极限定理，即使不是正态分布，其均值近似服从正态分布，通常样本量超过30就可以很好地近似。在这种情况下，可以得出大样本情况下均值的置信区间为

\[(\overline x - z_{1-\alpha/2} \frac{S}{\sqrt n},\overline x + z_{1-\alpha/2} \frac{S}{\sqrt n}\]

单总体方差和标准差的置信区间

我们已经知道，样本方差与总体方差之比服从$\chi^2$-分布。因为$\chi^2$-分布是偏态分布，所以样本方差构成的总体方差置信区间是不对称的。这里正态总体标准差的置信区间为

\[(\sqrt{\frac{(n-1)S^2}{\chi_{1-\alpha/2}^2(n-1)}},\sqrt{\frac{(n-1)S^2}{\chi_{\alpha/2}^2(n-1)}} \]

单总体比例的置信区间

1.小样本情况下，不能用正态分布来近似，这时需要采用二项分布查表法来建立比率的置信区间。

记总体的比率为$π$，样本的比率为$p$，样本量为$n$，我们知道总体服从二项分布$B(x, n, π)$，我们用$p$来估计$π$。下面我们用一个例子来说明。

例：某医院用某药治疗脑动脉硬化症25例，其中显效者20例。问该药总显效率的95%置信区间为多少？
解：先计算$p$，$p=20/25=0.8$
在置信水平为95%的条件下，我们需要查表找出$n=25$，$p=0.8$时概率为0.025和0.975的$\chi$值，查表分别为15、16之间和23、24之间，取15和24，则总体比率$π$的置信区间为(15/25，24/25)=(0.6，0.96)。

2.大样本条件下的正态近似。当$np$和$n(1-p)$都大于5，且$p$取值适中(在0.1与0.9之间)，则可以用正态分布来近似，即有

\[p \sim N(p,\frac{p(1-p)}{n}) \]

由此构建的总体比率$π$的置信区间为：

\[(p-z_{1-\alpha/2}\sqrt{\frac{p(1-p)}{n}},p+z_{1-\alpha/2}\sqrt{\frac{p(1-p)}{n}}) \]

置信区间的一些特点
1.在样本量相同的情况下，置信水平越高，置信区间越宽，同样的样本取置信水平0.9、0.95、0.99，则置信区间的宽度有这样的关系，CI(0.9)＜CI(0.95)＜CI(0.99)，CI为Confidence Interval简写。这很好理解，你希望估计的信心越大，你就要把区间取得越宽。
2.在置信水平相同的条件下，样本量越大，置信区间越窄。这也很好理解，以均值的置信区间为例，决定置信区间宽度的是方差，而决定样本均值的方差与样本量成反比，即样本量越大，样本均值的方差越小。

假设检验

何为假设检验？假设检验是对总体参数做一个尝试性的假设，该尝试性的假设称为原假设，然后定义一个和原假设完全对立的假设叫做备选假设。假设检验就是通过样本数据对两个对立假设进行检验。
假设检验有一套成熟的方法论。从参数看，即可以计算平均数，也可以计算比率。从样本看，可以划分为单样本和双样本。单样本是从总体中抽取一部分进行样本均数和总体均数的比较。用户调研就是一个典型的单样本。从假设的条件看，有单侧检验（仅大于或小于的可能性）和双侧（仅不可能，包含大于和小于两种情况）检验。

如果备择假设为总体发生了特定方向的变化，则备择假设去”=”，为双侧方向，假设检验为双侧检验(又称双尾检验)；如果备择假设为总体参数沿某一方向发生了变化，则备择假设含有”>”或“<”符号，备择假设为单向，假设检验为单侧检验(又称单尾检验)，单侧检验又可进一步分为左侧单尾检验和右侧单尾检验。

根据备择假设的表述，假设检验的方向可以区分为：

备择假设$ H_1:θ=θ_0$, 为双侧假设，相应的假设检验称为双侧检验。
备择假设$ H_1:θ<θ_0$, 为左向假设，相应的假设检验称为左侧检验。
备择假设$ H_1:θ>θ_0$, 为右侧假设，相应的假设检验称为右侧检验。

数据分析中更多的情况是两组样本的比较，譬如男女用户的差异、用户群体的差异、以及产品AB测试的好与坏。因为篇幅原因，案例将重点放在双样本检验中，单样本检验熟悉点估计和区间估计后不难。当通过调研发现用户对产品评分下降了，接下来得讨论怎么做。产品经理们说：用户都傻兮兮的，它们对产品改版无法作出有效的判断，所以打分不算数，应该用一套更好的判断方法。
这时以产品改版后的活跃相关指标作为标准，其中一半用户不做改变，还是原始功能，成为对照组。另外一半用户体验新功能，为改进组，然后根据一段时间后的表现来判断改版好与不好。
活跃指标怎么设立很大程度影响如何用假设检验。既可以用均值法，即用户平均使用时长，或一段时间窗口内的平均活跃用户数来衡量，也可以用比例法，即某一时间内的活跃率。两者对应不同的公式，这里以平均活跃用户数举例。
假设检验首先需要设立原假设和备选假设，这里很容易犯错。在许多假设检验中，都以备选假设为出现点，它是希望得到支持的结论。因为之前用户调研的评分是下降的，于是检验更希望「拒绝」活跃上升或不变，从而得出下降的结论。

假设检验的目的在于否定H0，先假设H0正确，当结果表明H0错误，则接受H1；当结果无法表明H0错误，则说没有足够的证据说明H0是错误的。由于备择假设是研究者希望通过收集证据予以支持的假设，一般情况下，建立假设时，先建立备择假设再确定原假设。同样的问题因立场不同会有完全不同方向甚至反向的假设，但是在值的验证上“=”号一定是放在原假设上。

原假设$H0$：活跃提升或不变；备选假设$Ha$：活跃下降。如果样本结果得出拒绝$H0$的结论，那么可以做出$Ha$为真的推断。
不同的样本量和总体方差使用的检验方法不同，下图是不同情况下使用的检验方法。样本是否大于小于$30$是因为中心极限定理，在大样本量，且总体方差未知时，使用$t$检验还是$z$检验均可，因为$t$分布近似于$z$分布。我们使用$z$检验做双样本均值。

不同的样本量和总体方差使用的检验方法

将用户分割出两个群体体验产品功能，原始对照组和改进组都有50000用户。对照组的七日平均活跃数$u_1=8500$，标准差为$s_1=1250$，改进组的七日平均活跃数为$u_2=8300$，标准差$s_2=1240$。当总体标准差未知时，有公式：

\[z = \frac{\overline x_1-\overline x_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}} \]

计算出$z=25.399$，远大于$1.96$，$p$值无限接近0，几乎不可能发生，也就说明改进组的活跃上升或者等于是个极小概率事件，我们拒绝了原假设，接受了备选假设。若还想深入的查看活跃究竟下降了多少，使用双样本均值计算置信区间：

\[(\overline x_1 - \overline x_2) \pm z_{\alpha/2} \sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}} \]

两个样本均值之差的95%置信区间为[183.566,215.433]。也就是说七日平均活跃数有95%的可能性下降了183～215之间。

假设检验具有两类错误。第一类错误，拒绝了实际上成立的，为“弃真”的错误，第二类错误，不拒绝实际上不成立的，为“存伪”的错误。

卡方检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越小；反之，二者偏差越大，若两个值完全相等时，卡方值就为0，表明理论值完全符合。其中卡方检验针对分类变量。卡方检验就是检验两个变量之间有没有关系。以运营为例:卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别；不同城市级别的消费者对买SUV车有没有什么区别；如果有显著区别的话，我们会考虑把这些变量放到模型或者分析里去。
卡方检验公式如下：

\[\chi^2 = \sum {\frac{{A-T}^2}{T}} \\ = \sum{\frac{{observed-expected}^2}{expected}} \]

这个公式可以帮我们求出卡方检验的值，我们用
1 这个公式求得的值
2 自由度(degree of freedom)
3 置信度
其中，自由度我们可以求出来，置信度的话，我们按照我们自己意愿挑选，一般我们会挑90％或者95%。
以投硬币举例，这三个数值计算方法如下：

投硬币

我们拿到这3个信息，去查表，因为0.72小于查表得到的3.841，所以我们得出这个硬币是均衡的结论。

参考：
数据分析必须懂的假设检验
 原假设与备择假设的联系与区别
 抽样分布篇之九：参数的点估计和区间估计
 结合日常生活的例子，了解什么是卡方检验

posted @ 2019-10-17 20:54 Jamest 阅读(2990) 评论(0) 收藏举报

刷新页面返回顶部

Jamest