1. 统计学概述
什么是统计学
统计学
统计学是数据的科学,它包括数据的收集、分类、概括、整理、分析以及解释。
统计学通常应用于两种类型的问题:
- 概括、描述以及探索数据,即描述性统计
- 利用样本数据推断被选取样本的数据集的性质,即推断统计学
描述性统计
致力于数据集的整理、概括以及描述的统计学分支称作描述性统计。
比如美国的人口普查,它涉及数据集的收集,目的在于反映生活在美国的人民的社会经济特征。
推断统计学
利用样本数据对一个很大的数据集作出推断的统计学分支称作推断统计学。
有时数据集刻画的是一种感兴趣的现象,这样的数据集在自然状态下是无法得到的、代价昂贵或者耗费时间才能获得的。在这种情况下,我们得到数据的一个子集(称作样本),利用这个样本信息来推断它的性质。
为了确定数据集的性质,我们从中抽样,然后利用样本推断数据集的性质。
统计学的基本要素
- 统计总体是我们感兴趣的目标的数据集(通常很大,有时是概念上的)
- 样本是取自目标总体的数据子集
- 测量值采集的对象(例如,人、事物、交易、标本或者事件)称作试验单位
- 变量是单个试验单位的特征或性质
- 可靠性度量是关于统计推断不确定程度的一个陈述(通常是定量的)
描述性统计问题的4要素
- 感兴趣的总体或样本
- 被研究的一个或多个变量(总体或样本单位的特征)
- 表格、图形或者数字概括工具
- 确定数据类型
推断性统计问题的5要素
- 感兴趣的总体
- 被研究的一个或多个变量(试验单位的特征)
- 试验单位的样本
- 基于包括在样本中的信息对总体的推断
- 推断的可靠性度量
数据类型
数据分为定量和定性两种类型。
数据类型更细致的划分是名义、次序、区间和比率数据。名义数据、次序数据是定性数据,区间数据和比率数据是定量数据。
定量数据
定量数据表示事物的数量或个数。
定性数据
定性数据没有量的解释,即它们只能以类型分类。