wangchuang2017

15675871637 WeChat wangchuang2022 QQ 2545804152 wangchuang2017@hunnu.edu.cn

1. 基础知识 (直方图柱状图正态分布模型抽样分布 )

前言

这个系列的笔记是StatQuest视频的学习笔记，我的这些笔记有时候会使用一些自己以前收录的数据，外加自己补充的一些笔记。此篇笔记是基础知识，视频教程的1-5。

一.什么是直方图

如果我们测量一批人的身高，他们的身高并不固定，因此我们先做一个x轴，从左到右身高依次增高，如下所示：

此时，我们开始测量这批人的身高，一个点代表一个人，如下所示：

这种图有个缺陷，就是一些相同身高的人的点会重合，并不直观，因此我们可以转换一下图形，把相同身高的人的点叠加起来，如下所示：

这样的话，我们就能很清楚地看到这批人身高的统计情况，这种图形可以叫直方图（histogram），直方图的下端（也就是x轴）的数据是连续的，可以自己设定，从图中可以明显看到，中间的人的点数多，两边的人点数少。

再进一步，我们可以使用“分布（distribution）”这个术语来表示我们这次测量的为数据，将这些数据点的顶端用一个近似曲线连接起来，就成了下面的这个样子：

这种图形类似于一个钟型（bell）我们可以称它为正态分布（normal distribution），如果我们测量出来的数据是下面的这个样子，它就呈现一种指数分布（exponential distribution）：

直方图的特点

如果我们在测量这批人的数据时，以0.5英尺（约合30cm）为单位，也就是说，在绘制直方图时，x轴的坐标上的宽度分布是这个样子的：

可以看到，这次测量把这批人的身高数据划分了4份，分别为小于5，5到5.5，5.5到6，大于6。如果改变一下，把数据划分为8份，也就是说最小的单位值是0.25，就是下面的这个样子：

如果测量更多的人，使用更加小的划分单位，我们就会得到一个对人体身高更加精确的估计值，下图是划分了18份，如下所示：

并且还可以画出一条曲线（curve），对这批数据进行估计，如下所示：

从这张图上我们可以得到以下信息：

测量一个人，得到这个低于4.5或高于6.5的概率比较低，而很大的概率会得到曲线中间凸出来的部分。

使用曲线来估计一批人数据比直方图更有优势。

第一，直方图有时候并不准，例如上图右侧蓝箭头这部分数据并没有测到，如果换一批人，就有可能测到；

第二，使用曲线时，并不用考虑最小数据的分隔单位，就能估计一个数值的概率，例如我们要计算得到5.021和5.317这个数据的概率有多大，就直接利用曲线就能得到。

第三，人的精力与资源有限，直接去测量大批数据并不现实，而估计一条曲线只需要我们手中少量数据的标准差与均值即可。

在这张图里，直方图与曲线都表示这批数据的分布，其中曲线的最高处以及直方图的中间地带，都是最有可能测量到的部分。除了这种正态分布的图形外，还有其他的分布（下图左上是正态分布，右上是指数分布，左下是均匀分布），如下所示：

直方图与柱状图的区别

直方图x轴上的组距是连续的，从上面的图形可以得知，测量的身高的不同划分是小于5，5到5.5，5.5到6，6以上。

而柱状图的x轴上通常是一些分类的数据类型，看下图：

这张图就是一个柱状图（有人也称条形图），它的x轴是不连续的，只是一些分类变量。

二.正态分布

先看一下正态分布图形，就是上一部分中的身高分布数据，如下所示：

从图形上可以看到正态分布的特点：

左右对称，因此也叫钟型曲线（bell shaped curve）；
中间凸起，两侧平缓。

再看另外的两个正态分布图形：

其中，左侧绿线表示的是出生的婴儿的身高分布（英寸），右侧的划线表示的是成人身高的分布，从这两个曲线上我们可以得到这些信息：

婴儿的正态分布曲线比较尖锐，这表示婴儿身高比较集中，成人身高的正态分布曲线比较平缓，这表示成人身高比较分散；
成人身高的平均值要高于婴儿身高的平均值。

再看一下婴儿和成人身高的95%的集中程度：

自然界的很多事物都符合正态分布，其背后的一个原理就是中心极限定理（the central limit theorem），以后的笔记会提到。

三.模型

模型，英文是指“model”。

在统计学中，模型是指对现实世界中的一些事情的抽象处理，数据模型使用一些表格，图表，公式来研究现实世界中的一些规律，例如下图就是使用一个图表和公式来表示小鼠的体重与大小的关系：

有时候，图形不一定是直线，也有可能是曲线，如下所示：

四.抽样分布

下图是一个直方图，一个点表示一个人的身高：

然后用一条曲线来表示数据的分布：

如果我们从这个分布里面随机抽出一个样本的话，有很大的概率会抽到中间的这一部分，就是下图中黑色圆角矩形表示的区域：

如果我们使用某个程序（例如R语言）随机地从服从正态分布的数据中挑出许多样本，然后对它们进行统计的话，看一下会发生哪些事情，例如从下面的这个正态分布中随机地挑出两个样本，一个样本的数量是3（一个样本不一定只是一个数据点），如下所示：

然后对这两个样本进行t检验，由于它们都是来源于同不一个分布，因此t检验结果的p值会很大（也就是说p很有可能大于0.05）。如果这两个样本是来源两个不同的分布，如下所示：

那么经过t检验，得到的p值就会很小。

如果想到得到较小的p值，这就可能要增加样本，或者是就此为止（增加样本涉及到一类错误与二类错误，这里不表）。

posted on 2018-11-17 11:00 王闯wangchuang2017 阅读(5633) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告