数据挖掘——统计学分析(四:概率与概率分布)
数据的概率及其分布
前面几章都是从简单的数据整理与统计的角度去分析数据,而数据的概率分布有助于我们进一步地推测数据的分布特点。数据挖掘需要不断地实践,因此在学习的过程中可以借助Excel、spss等工具去辅助,用Excel计算二项分布概率值得操作见 统计学(第六版)贾俊平。
变量——>离散型、连续型
离散型随机变量的概率分布
0-1分布
均匀分布
离散型随机变量的期望值和方差
期望值
方差与标准差
二项分布
泊松分布:描述在指定时间范围内或在指定面积或体积之内某一事件出现的次数分布。
满足泊松分布的几个例子:
1)某路段早高峰发生交通事故的起数。
2)某年国际上发生恐怖袭击事件的件数。
连续型随机变量的概率分布
概率密度与分布函数:连续型随机变量不能像离散型随机变量也一样列出每一个值及其对应的概率,通常用数学函数和分布函数的形式来描述。概率密度函数用f(x)表示。
概率密度分布:概率密度函数的导数
期望值E(x):xf(x)在负无穷到正无穷大区间内的积分
方差:(x-E(x))^2*f(x)在负无穷到正无穷大区间内的积分
正态分布
连续型随机变量中最重要的一种随机变量。
满足正态分布的例子:
1)某公司的销售量
2)人群中高个子、矮个子、中等身材的人的分布
感谢您的阅读,如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮。本文欢迎各位转载,但是转载文章之后必须在文章页面中给出作者和原文连接。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步