数据挖掘——统计学分析(四:概率与概率分布)

数据的概率及其分布

      前面几章都是从简单的数据整理与统计的角度去分析数据,而数据的概率分布有助于我们进一步地推测数据的分布特点。数据挖掘需要不断地实践,因此在学习的过程中可以借助Excel、spss等工具去辅助,用Excel计算二项分布概率值得操作见 统计学(第六版)贾俊平。

 变量——>离散型、连续型

离散型随机变量的概率分布

0-1分布

均匀分布

离散型随机变量的期望值和方差

期望值

方差与标准差


二项分布

 

泊松分布:描述在指定时间范围内或在指定面积或体积之内某一事件出现的次数分布。

满足泊松分布的几个例子:

 1)某路段早高峰发生交通事故的起数。

 2)某年国际上发生恐怖袭击事件的件数。

连续型随机变量的概率分布

概率密度与分布函数:连续型随机变量不能像离散型随机变量也一样列出每一个值及其对应的概率,通常用数学函数和分布函数的形式来描述。概率密度函数用f(x)表示。

概率密度分布:概率密度函数的导数

期望值E(x):xf(x)在负无穷到正无穷大区间内的积分

方差:(x-E(x))^2*f(x)在负无穷到正无穷大区间内的积分

正态分布

连续型随机变量中最重要的一种随机变量。

满足正态分布的例子:

1)某公司的销售量

2)人群中高个子、矮个子、中等身材的人的分布

posted @ 2018-10-04 09:25  程序媛墨禾  阅读(916)  评论(0编辑  收藏  举报