t 检验的 3 种常用方法及在 Python 中使用样例
t 检验是一种统计技术,可以告诉人们两组数据之间的差异有多显著。它通过将信号量(通过样本或总体平均值之间的差异测量)与这些样本中的噪声量(或变化)进行比较来实现。有许多有用的文章会告诉你什么是 t 检验以及它是如何工作的,但没有太多材料讨论 t 检验的不同变体以及何时使用它们。本文将介绍 t 检验的 3 种变体以及何时使用它们以及如何在 Python 中运行它们。
单样本 t 检验
单样本 t 检验将数据样本的平均值与一个特定值进行比较。最常见的一个例子是可口可乐想要确保装瓶厂在每个罐头中倒入适量的苏打水:他们想要每个罐装 355 毫升,因此可以抽取罐装样品并测量倒入每个罐装的确切毫升数。由于机械过程不精确有些罐头的容量可能超过 355 毫升,而有些罐头的容量可能会变少。通过对罐子样本进行单样本 t 检验,可以测试机器是否向每个罐子中倒入与 355 毫升液体不同的统计学显着量。
它是如何工作的?
1、陈述原假设和备择假设。原假设 (H0) 将是样本均值与特定值(总体均值)没有差异,而备择假设 (H1) 则表明存在差异。使用上面的示例,它们将类似于:
- H0:平均每罐可乐有355ml。
- H1:平均每罐可乐超过355ml。
注意:由于我选择了一个方向(即“每个罐子里有超过 355 毫升”),这变成了一个单边 t 检验而不是只说数量不是 355 毫升的双边 t 检验。
2、确定显著性水平:显著性水平,通常称为 alpha (α),是在实际为真时拒绝原假设的概率。通常使用 0.05 的 alpha 值,这意味着有 5% 的风险得出结论认为样本之间存在统计学上的显著差异,而这实际上只是由于噪声所导致的。
3、收集数据:要测试的值 (μ)、样本均值 (x̄)、样本标准差 (S)、样本观察次数 (n),并将它们代入以下公式计算 t 统计量:
4、将t统计量和自由度代入t表,得到相应的p值。将这个p值与你选择的alpha水平比较,如果它更小,你就可以拒绝原假设。
但是这类测试的有效性需要3个假设:
- 样本是独立的
- 数据近似正态分布
- 随机采样
代码示例
Scipy 的 stats 库有一个方便的 ttest_1samp 方法,当给定数据样本和要比较的总体均值时,该方法将计算 t-stat 和 p-value。下面的代码演示了使用该函数为上述示例运行一个示例 t 检验。
原文地址
https://www.overfit.cn/post/4d281f529e5c433490381d1e0c73007c