轻松驾驭统计学——数据分析必备技能
一、前言
1、条件概率
2、相关事件和独立事件
3、统计
统计是一门收集数据、处理和分析数据,解释数据并从数据中得出结论的科学。
1、描述统计:目的是描述数据特征,找出数据的基本规律,举例如下:
2、推断统计:是研究如何利用样本数据来推断总体特征的方法
参数估计实质上是样本对总体指标的估计。举例:事先给定一容量的样本。已知样本均值/方差,要求估计总体的均值/方差
假设检验则是先对总体参数提出一个假设,然后利用样本信息判断这一假设是否成立
4、变量和常量
按数据类型
按变量值是否连续 按变量值能否量化
按计量层次
不同类别之间可以相互转化
按时间状况
5、绝对数和相对数
6、频数和频率
7、百分比和百分点
8、比例和比率
9、倍数和番数
10、同比和环比
二、抽样方法
全面调查和抽样调查是数据收集常用的2种方法
1、总体、个体、样本、样本容量
2、抽样误差
抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全局指标的绝对离差。
3、未响应误差和响应误差
4、抽样方法
三、用好图表
四、数据分布特征
分布可以从 集中趋势、离中趋势、偏态和峰态 进行描述。
1、平均数
2、变异系数
3、偏态和峰态
偏态系数
峰态系数
4、数据标准化
1、0-1标准化(离差标准化)
2、Z-score标准化(标准差标准化)
五、统计方法——参数估计
参数估计是用样本统计量去估计总体的参数。
1、点估计
2、中心极限定理
3、区间估计
区间估计不要求给出总体均值的精确估计,而是给出总体均值介于数值A、B之间。我们用(A,B)表示这个区间,我们希望这个区间包含总体均值,将这种情况称之为区间估计。
六、统计方法——假设检验
案例:有一天,宝强怀疑妻子有可能出轨,于是进行假设检验。
【第二步】证据是什么
根据中心极限定理,我们知道,合理足够多的样本可以代表总体。所以我要找到马蓉合理的样本数据来做证据。
接下来,我随机调查了马蓉这几年的样本数据,包括上网,开房,财务等。
根据这些样本数据显示出来的证据,我利用自己的统计概率知识,计算出了,在零假设成立的前提下,马蓉没有出轨的概率P=0.01%。
七、
一、正态分布、卡方分布、t分布、F分布
二、样本均值的抽样 分布与中心极限定理