复习《统计思维——程序员数学之概率统计》笔记
"""
This file contains code for use with "Think Stats",
by Allen B. Downey, available from greenteapress.com
Copyright 2010 Allen B. Downey
License: GNU GPLv3 http://www.gnu.org/licenses/gpl.html
"""
补充资料:
(1)精品课程《轻松学统计》;
(2)
1. 数据 总体population、横截面研究cross-sectional study,周期cycle,纵向研究longtitudinal study,记录record,参与调查的人respondent、样本sample、有代表性representative、过度抽样oversampling、原始数据raw data、重编码recode、数据清洗data cleaning。 1.1 数据的分组——相关分组处理方法。
1.2 变量数列 单项式数列 组距式数列
1.3 集中趋势 计算平均数 位置平均数 1.4离中趋势 衡量平均数代表性的好坏;反映事物发展是否均衡,是否稳定; 1.5使用核密度估计方法计算一个样本(序列)所对应的符合该样本书记的适当平滑的PDF。 |
|
2. 分布—— 值及出现的次数——直方图histogram——每个值的频数frequency 描述变量的最佳方法之一是列出该变量在数据集中的值,以及每个值出现的次数。这种描述称为该变量的分布distribution。
汇总统计量summary statistic:针对一个群组进行统计。 均值 、平均数 方差variance、标准差standard deviation(又称为:均方差)。
效应量effect size:描述两个群组之间的差异。如, (1)使用两个群组均值的差值描述两个群组之间的差值。 (2)将群组之间的差值与群组内的变化性进行比较——统计量Cohen's d。
正态分布normal distribution——钟形的理想化分布,也称为高斯分布。 均匀分布uniform distribution——所有值具有相同的分布。
临床显著clinically significant——在实践中有意义的结果,如群组之间的差异。 page28——对图形中一部分数据进行放大,并转换数据,以强调种种区别。 page18——处理离群值的最佳方法依赖于“专业领域知识”和数据分析者打算对数据进行何种分析;
|
|
3. 概率质量函数PMF——适用于描述变量值数量较少的情况。随着值的数量增加,每个值对应的概率会变得越来越小,随机噪音的影响就会变大。 概率probability:是频数的分数表示。 概率质量函数probability mass function,PMP:将每个值映射到其概率。 |
|
4. 累积分布函数CDF
4.1 解决PMF在变量值数量较大的局限:(1)数据分区;(2)累积分布函数。
4.2 百分位数 原始成绩,百分位秩——在标准化考试成绩中,百分位秩是比你成绩低(或相同)的人的比例。“位于第90百分位”说明你的成绩高于或等于90%参加考试的人。 (1)已知数据序列和特定值,计算该特定值的百分位秩;——排查一遍,将小于等于特定值的数据计数,计数值/总数; (2)已知数据序列(长度n),求指定百分位秩x所对应的数据;——将数据序列按值从小到达排序,取第n*x/100位置的数据即可。——即取百分位数索引所对应的数据。
4.3累计分布函数cumulative distribution function,CDF——将一个值映射到整体的百分位秩。 ——描述“小于等于”的概率。 ——“分布函数”是“累计分布函数”的简称。 ——是概率密度函数的积分。
|
|
5. 分布建模(可在学完第6章之后学习第5章) 经验分布——基于有限样本的经验观察得到的CDF。实际样本的累积分布函数CDF。 分析分布——采用某种数学函数表示样本数据的统计规律,是对数据建模的一种方法。
常用的分析分布:
5.1 指数分布——用于对现实世界中达到间隔测量数据建模。如果事件在任意时间发生的可能性相同,到达间隔的分布就会近似为一个指数函数。 如,怀孕过程中,受精卵到婴儿出生——妊娠期不同,记录出生时间点得到婴儿出生时间数据集,将相邻出生时间间隔作为研究样本X,假设婴儿在一天中的任何时间出生的可能性相同,采用指数分布对CDF(X)进行建模,得到连续模型。尽管这种假设并不准确成立,使用指数分布对这个样本X进行建模是合理的,经过这种简化,我们用一个参数\lamda就可以概括这个分布。 参数\lamda可以解释为一个比率,即在一个时间单元内发生的平均次数。在上述例子中,24小时内出生了44个婴儿,指数函数唯一参数\lamda等于每分钟0.0306个婴儿出生,指数分布的均值为1/\lamda,即表示婴儿出生时间间隔均值为32.7分钟。 |
|
6. 概率密度函数 probability density function 6.1 CDF的导数称为概率密度函数PDF。 在物理学上,密度是单位体积的质量。密度乘以体积得到质量; 概率密度是在度量单位x的概率。 如,身高的概率质量PMF图在130-190cm之间是一个类似钟形的阶梯函数(纵坐标为身高值对应的频次), 身高的概率密度PDF图在130-190cm之间是一个类似中兴的平滑函数(纵坐标为密度),表示每cm的概率值. 概率密度自身并没有太多的含义。但是,如果绘制PDF图,可以看出这个分布的形状。
PMF代表一组离散值的概率。CDF表示累计概率;要从CDF得到PMF,需要计算累计概率之间的差值。 PDF是连续CDF的导数,CDF是PDF的积分;PDF将值映射到概率密度,要得到概率,必须进行积分运算。
6.2 离散型描述量PMF —— 连续性描述量PDF 要从离散型分布得到连续性分布,需要采用多种平滑处理方法。 平滑方法(1):假设数据来自一个连续的分析分布(如指数分布或正态分布),然后估计这个分布的参数; 平衡方法(2):采用核密度估计方法。 核密度估计方法:已知一个样本序列,找到一个符合该样本数据的适当平滑的PDF。 为不存在的值估计概率密度;——插值 分布有离散型------>连续型
6.3 对实际样本的估计与验证 得到实际样本序列,进行数据分析探索,可以画出hist、pmf、cdf进行分析,如果初步判断符合高斯分布,可以通过通过对实际数据和猜测参数后模拟的数据分别得到对应的pdf,绘制它们的PDF图做比较。进一步可以比较研究点对应的概率密度。
实际数据sample的pdf计算与绘图:(研究时,实际数据也可以采用随机建模数据) sample_pdf = thinkstats2.EstimatedPdf(sample); #核密度估计得到的概率密度函数 thinkplot.Pdf(sample_pdf, label='Sample KDE')
探索阶段猜测的(逐步调整细化)参数:mean, var 依据参数获取模拟数据计算其pdf并绘图: mean, var = 163,52.8 std = math.sqrt(var) pdf = thinkstats2.NormalPdf(mean, std) thinkplot.Pdf(pdf, label='normal') #可计算pdf.Density(mean + std)得到0.0333001,表明对于模拟的建模身高数据,每cm的概率值为0.0333001. #已知pdf可以模拟得到对应的pmf = pdf.MakePmf();
6.4 研究工具thinkstats2的介绍 thinkstats2中提供了各种基本类型如Hist, Pmf, Cdf, Pdf.它们有自己的属性和方法。
6.5 统计量 均值、方差、中位数、四分位 新的统计量1:矩 (1)原始距;k=1时为均值;(2)中心矩; k=2时为方差 新的统计量2:偏度skewness——描述分布形状的一个量。 如果分布是以集中趋势为中心对称的,称这个分布是非偏斜的(unskewed); 如果分布中的值向右延申的更多,那么这个分布就是右偏(right skewed). 样本偏度g1没有单位其值的大小用于比较,本身很难解读。为负值时代表分布左偏,为正值时代表分布右偏。 实际应用中,分布中任何离群值都会对g1产生不同程度的影响,计算偏度并非好注意。 衡量分布对称性通常采用Pearson中位数偏度系数Pearson's median skewness coefficient——基于样本均值和中位数差的一种偏度度量。这个统计量是稳健的(robust)。 |
|
7. 变量之间的关系 如果从一个变量的信息中得到另一个变量的信息,那么这两个变量就是相关的。
7.1 散点图——对变量关系有一个大体的了解 数据抖动(抖动的数据通常只应用于视觉效果,使得变量关系的形状更加清晰,应避免在分析时使用经过抖动的数据)。 显示时设置透明度、或直接绘制hexbin图。
7.2 描述关系特征 其他可视化方法可以让我们更加深入地了解变量关系的本质。 一种方法是对一个变量进行分区,绘制另一个变量的百分位数。
7.3 相关性 新的统计量3:相关性 相关性是一个统计量,用于量化两个变量之间关系的强弱; 度量两个量的相关性是困难的。因为,需要比较的变量通常使用不同的单位。即便变量使用相同的单位,也可能来自不同的分布。解决方法: (1)将每个值都转换为标准分数(standard score),即期偏离均值的标准差。——Pearson乘积矩相关系数。 (2)将每个值都转为为秩,即其在的所有值的排序列表的索引。这种转换后计算相关性 ——Spearman秩相关系数。
以上两个相关系数都会调用到协方差计算公式Cov。
Pearson相关系数计算公式:Corr(xs, ys);取值\rou介于-1~+1之间的。正数表示正相关,负数表示负相关。1或-1表示完全相关。 系数值的大小表明了相关性的强弱程度。 Spearman秩相关系数计算公式:SpearmanCorr(xs, ys). 能够缓解离群值以及偏斜分布的影响。
相关性并不意味着因果关系。回归分析regression analysis用来推导因果关系。
检验相关性是否“统计显著”——即多次计算相关性,得到的相关性值始终稳定在一个很小的范围内。
|
|
对数据的研究——抽样 1.随机抽样 (1)简单随机抽样 ——依据0-1分布的均匀分布CDF函数中选择p,让后得到的CDF的反函数得到x=ICDF(p). (2)分层随机抽样 举例:某单位调查身体状况,整体员工500人抽取100人进行访问。采取分层随机抽样反映整体员工的结构。 (3)整群抽样 (4)系统抽样(等距抽样)
|
|
参数估计
对总体数据整体进行统计——描述统计方法 | |
总体指标(总体未知参数)不可得或不好计算 样本指标(样本统计量) 依据样本统计量 推测 总体参数
|
|
|
|
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY