数据科学之数据统计
数据统计
作为一个数据科学家,数据统计不要求很精通,但是掌握数据统计的基本知识,能够运用数据统计的相关方法解决实际问题是必要的。从数据的分析的目的和思考方式来看,数据统计方法分为:描述统计和推断统计。从数据分析的方法论角度看,可分为两个层次:基本分析法和元分析法。
1概率分布
在统计学中,概率分布可分为离散型随机变量概率分布和连续型随机变量概率分布。
|
概率分布的描述方法 |
典型概率分布 |
离散型随机变量概率分布 |
概率函数P(x) |
二项分布和泊松分布 |
连续性随机变量概率分布 |
概率密度函数f(x)或概率分布函数F(x) |
正态分布,X2分布,t分布,F分布 |
2参数估计
参数估计嘛,就是根据“样本的统计量”来估计“总体的参数”。
2.1点估计
思路:先从总体中抽取一个样本,然后根据该样本的统计量对总体的未知参数做出一个数值点的估计。
2.2区间估计
思路:给出总体参数落在某一区间的概率。此区间就是根据样本的观察值给出的总体参数的估计范围,可通过样本统计量加减抽样误差的方法计算。
3假设检验
简单来说就是假设/演绎分析方法,先对总体参数或分布形式做出某种假设,然后利用数据证明原假设是否成立。
基本步骤:
1)提出原假设H0和备择假设H1
2)确定用于假设检验问题的统计量---检验统计量
3)规定一个概率值---显著性水平α
4)计算检验统计量的值
5)做出统计决策
假设检验通常犯的两类错误:α错误(弃真错误,β错误(取伪错误)
假设检验方法的两种基本类型:参数检验,非参数检验
4基本分析方法