统计分布简述
基本概率
1.确定性:一个程序运行时使用相同输入就会产生相同的输出
2.相互独立:在随机过程中,如果一个事件的结果不会影响到另一个事件的结果
3.统计推断的指导原则:一个从总体数据中随机抽取的样本往往可以表现出与总体相同的特性
4.大数定律(伯努利定理):在独立可重复的实验中,如果每次实验中出现某种特定结果的实际概率为P,那么实验次数接近无穷大时,出现这种结果的比例与实际概率P之间的差收敛于0
5.方差:是一种测量方式,用来表示可能出现的不同结果的分散程度;方差描述了集合中接近于均值的数值的比例。如果很多值都一样,方差就是0
分布
1.直方图:表示数据集中数值的分布,先对数值进行排序,再将其分到固定数量的等宽区间中,然后绘制一张图表示每个区间中的元素数量。------一种频率分布,告诉我们一个随机变量的取值落在某个范围内的频繁程度。
2.概率分布:给出一个随机变量取值在某个范围内的概率,并以此反映相对频率
1、离散型概率分布
随机变量取值是一个有限集合,eg:掷骰子
2、连续型概率分布
随机变量的取值可以是无限的,可以是两个实数之间的任意一个实数,eg:汽车行驶速度可在在0km/h和最大行驶速度之间
3.概率密度函数(PDF):描述连续概率分布,并经常将其缩写为PDF,描述了一个随机变量位于两个数值之间的概率。
4.正态分布(高斯分布):正态分布在均值处达到最大值,并在均值两侧对称地减小,逐渐趋近于0;又称为钟型曲线。
使用Python容易生成正态分布,调用random.gauss(mu,sigma)即可,这个函数会从一个均值为mu、标准差为sigma的正态分布中随机返回一个浮点数。
补充:SciPy库包含了很多科学家和工程师经常使用的数学函数,SciPy是以模块组织的,其中的模块覆盖了各个不同的科学计算领域,比如信号处理和图像处理。
scipy.integrate.quad求一个函数在两个点之间的积分的近似值,三个必须参数和一个可选参数:
1】一个要进行积分的函数或方法(如果函数有多个参数,就按照第一个参数进行积分);
2】表示积分下限的数值;
3】表示积分上限的数值;
4】一个可选的元组,为要进行积分的函数提供所有参数,第一个参数除外。
返回值:一个由两个浮点数组成的元组,第一个浮点数的积分的近似值,第二个浮点数是对结果中绝对误差的一个估计值
print (scipy.integrate.quad(abs, 0, 5)[0])
5.二项式分布:分类变量只可能有两个值(如成功或失败),那么这时的概率分布就是
6.多项式分布:二项式分布的推广,用来描述取值多与两个的分类数据,如果在n次独立实验中,每次实验都存在m个具有固定概率的互斥的结果,那么只时候适用于多项分布。多项分布可以给出各种结果的任何一种组合发生的概率。
7.指数分布:对两次输入的时间间隔进行建模,分布非常常见。
eg:考虑一种药物在人体中的浓度变化。假设在每个时间段内,每个分子被清除(即被排出体外)的概率是常数p。系统是无记忆的,即在每个时间段内,一个分子被清除的概率与上一个时间段发生的事情无关。当时间t = 0时,一个分子在人体内的概率为1。当t = 1时,这个分子仍然留在人体内的概率就是1 – p。当t = 2时,这个分子仍然留在人体内的概率就是(1 - p)2。更一般地说,当时间为t时,一个分子仍然留存在体内的概率是(1 - p)t,即与t成指数关系。
用Python生成指数分布非常容易,调用函数random.expovariate(lambd)即可,lamdb是想要得到的均值的倒数,为正函数会返回0和无穷大之间的一个值,为负则返回无穷大和0之间的一个值
8.几何分布:是指数分布的离散模型,经常用于描述在第一次成功(或第一次失败)之前所需的独立尝试次数。
9.本福德定律:对一个十进制数的集合,如果第一位数字是d的概率符合P(d) = log10(1 + 1/d),就称为本福德定律。
T分布
1.T分布是统计分布的一种,同卡方分布(X2分布),F分布并称为三大分布
2.T分布又叫student-t分布,常用于根据小样本来估计呈正太分布且方差值未知的样本的均值(如果总体的方差已知的话,则应该用正态分布来估计总体的均值)(所以一个前提条件是:T分布的样本的总体必须符合正态分布)
3.T分布一般用于小样本的情形、
4.假设X服从标准正态分布即X~N(0,1),Y服从自由度n的卡方分布即Y~χ2(n),且X和Y是相互独立的,那么Z = X/sqrt(Y/n)的分布成为自由的为n的T分布,记为Z~t(n)。
5.对于Z~t(n)分布,其数学期望E(Z)= 0,n>1;方差D(Z)= n/(n-2),n>2
特征:
1.以0 为中心,左右对称的单峰分布;
2.T分布是一簇曲线,其形态变化与n(即其自由度)大小有关,自由度n越小,T分布曲线越低平;自由度n越大,T分布曲线越接近标准正态分布(u分布)曲线,当自由度无限大时,T分布就成了正态分布。
3.随着自由度逐渐增大,T分布逐渐接近标准正态分布。
抽样与置信区间
概率抽样
概率抽样,总体中每个个体都有一定的非零概率被抽中
1.简单随机抽样中,总体的每个个体被抽中的机会都是相等的。
2.分层抽样中,先将总体划分为若干层,对每一层进行随机抽样,然后组成样本,分层抽样可以提高样本在整体上代表总体的概率。
中心极限定理
1.给定一组从同一总体中抽取的足够大的样本,这些样本的均值(样本均值)大致服从正态分布
2.这个正态分布的均值近似等于总体均值;
3.样本均值的方差近似等于总体方差除以样本量。
本文来自博客园,作者:爱吃帮帮糖,转载请注明原文链接:https://www.cnblogs.com/monkeyT/p/9496249.html