统计学基础一:基础概念
统计学是搜索、分析、表述、解释数据的一门综合性科学。可达到推断所测对象的本质,甚至预测对象未来的目的。
数据:是为了描述和解释所搜集、分析、汇总的事实和数字。
数据集:用于特定研究而搜集的所有数据。
个体(Element):搜集数据的实体,变量(variable)是个体中所感兴趣的特征
观测值(observation):某一个体得到的测量值集合
测量尺度:对不同种类的数据,依据其尺度水平所划分的类别,测量尺度决定了数据中蕴含的信息量,表明最适合的数据汇总和统计分析方法。测量尺度包含名目尺度、次序尺度、等距尺度、等比尺度。
1)名目尺度
名目尺度只能用来比较相等或者不相等,而不能比较大小,更不能用来进行四则算术运算。如:性别、颜色
2)次序尺度
次序尺度也用来描述一个对象的类别,与名目尺度不同的是,次序尺度的类别有一定的顺序或大小。例如,优良中差
3)等距尺度
等距尺度具有次序尺度所有的特性。除了能比较大小外,等距尺度测量值可以相加减,其结果仍然有意义。另一方面,由于等距尺度的零点是任意选取的,所以乘法和除法运算的结果不唯一,因而是没有意义的。如:年份、温度
4)等比尺度
也称比率尺度。等比变量具有等距变量的所有特点,同时它也允许乘除运算。大多数物理量,如质量,长度、绝对温度或者能量等等都是等比尺度。只有等距尺度和等比尺度有计量单位
分类变量是用标签或名称来识别项目的类型,可用名目尺度和次序尺度度量;数量变量是表示多少或大小的数值,可用等距尺度和等比尺度度量。
统计方法是否适合一个特定变量,取决于变量是分类变量还是数量变量。如果变量是分类变量,则统计的方法极其有限,我们通过记录每一类别中的观测值的数目,或计算某一类别观测值的比例来汇总分类型数据。即使分类型数据用数值代码表示,加减乘除也没有意义。
将数据以表格、图形或数值形式汇总的统计方法被称为描述统计
利用样本数据对总体特征进行估计和假设检验被称为统计推断
总体:在一个特定研究中所有个体组成的集合
样本:总体的一个子集