统计学小抄:常用术语和基本概念小结
统计学是涉及数据的收集,组织,分析,解释和呈现的学科。
统计的类型
- 描述性统计
描述性统计是以数字和图表的形式来理解、分析和总结数据。对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据,如条形图、饼图、散点图、直方图等。所有的解释和可视化都是描述性统计的一部分。重要的是要记住,描述性统计可以在样本和总体数据上执行,但并不会使用总体数据。
- 推论统计
从总体数据中提取一些数据样本,然后从这些数据样本中,推断一些东西(结论)。数据样本被用作对该总图作出结论的基础。这可以通过各种技术来实现,比如数据可视化和操作。
数据的类型
1、数字数字
数字数据就是指数字或数值型的数据。数值数据又分为离散和连续两类数值变量。
I) 离散数值变量——离散变量的概念是指具有有限取值范围的变量,例如教室中的排名、系中教授的数量等。
II) 连续数值变量——连续变量的值可以是无限的,可能是范围内的任意数值,例如员工的工资。
2、分类数据-
分类数据类型是数据的字符类型表示,例如名称和颜色。一般来说,这些也有两种类型。
I) 序数变量—序数分类变量,其值可以在一系列值中排序,例如学生的年级(a、B、C),或高、中、低。
II) 名义变量——这些变量没有排名,只是包含名称或一些类别,如颜色名称、主题等。
集中趋势量数的度量
集中趋势的度量给出了数据中心的概念,即数据的中心是什么。其中有几个术语,如平均值、中位数和众数。
一个特定数值变量的平均值是其中所有数值的平均值。当数据包含异常值时,不建议找出平均值并将其用于任何类型的操作,因为单个异常值会严重影响平均值。
中值是对所有数字排序后的中心值。如果总数是偶数,那么它就是中心2值的平均值。它不依赖或影响异常值,除非一半的数据是异常值(这样的话就不是异常值了)。
众数是观察结果中出现最多的数值。Numpy没有提供查找众数的函数,但是Scipy有。
在使用的时候,不要只使用他们三个的一个,可以试着全部使用这三种方法,这样就可以理解数据的本质。
数据分布度的度量
分布度度量描述了特定变量(数据项)的观察值集的相似性或变化程度。分布度的度量包括范围,四分位数和四分位数范围,方差和标准差。
1、范围
通过比较数据的最大和最小值(最大值)来定义范围。
完整文章:
https://avoid.overfit.cn/post/77b3cb6cf95c4e46b3342f7af40b6451