排列数:

 

 

 

 组合数:

 

 

 

 

 

 关联规则:

 1、联合概率和条件概率

联合概率:P(AB)两个概率同时发生的概率

 

 

 

 

 

 2、关联规则算法

 

 

 数据分析精选

这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的大数据中,发现啤酒和尿布销售之间的联系呢?这又给了我们什么样的启示呢?
关联规则分析

 

关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,

找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

 

 3、全概率公式

条件概率、全概率=贝叶斯公式

 

 

 4、贝叶斯公式

 

 

 

 

 

 P(B)=3/5 * 2/4  +  2/5 * 3/4 =3/5

2/4=P(B|A) 在A发生的条件下B发生 (先因后果)

P(A/B)在B发生的条件下B发生 (先果后因)

 

 

贝叶斯公式及例题

 

14个数据,Y:9个买,X:5个不买

A对应age

B对应 学student

 判断是否为学生预测购买的概率

 

 三、一维随机变量及其分布

数据的分散情况,分布在各未知的概率

 

 

 

区间的每个值都可以取到-----连续

只能取区间的部分点------离散

3.1离散型随机变量及其分布

 

 

 

 Bernoulli分布

 

 

 

 Poisson分布--

当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。

通俗理解泊松分布

 

 

 

 

 

四、连续型随机变量及其概率密度

 

 

 

 

 

均匀分布

 

 

指数分布

 

指数分布公式的含义是什么?

 

 

正态分布

标准正态分布:
期望值μ=0,即曲线图象对称轴为Y轴,标准差σ=1条件下的正态分布,记为N(0,1)。

 

 用软件处理小批量数据 例如500M的SPSS ,电脑就带不动,必须用代码Python

spss侧重于假设和检验

python侧重于大数据的 统计推断 

 

泊松分布表示的是事件发生的次数,“次数”这个是离散变量,所以泊松分布是离散随机变量的分布。

指数分布是两件事情发生的平均间隔时间,“时间”是连续变量,所以指数分布是一种连续随机变量的分布。

可以用等公交车作为例子:

某个公交站台一个小时内出现了的公交车的数量 就用泊松分布来表示

某个公交站台任意两辆公交车出现的间隔时间 就用指数分布来表示

 

 

 P(X<2)-P(X<1)

最小二乘法

做预测,做回归

最小二乘法,所谓“二乘”就是平方的意思

 

 

 

 

极大似然方法

极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!

换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

五、数值特征

 5.1数学期望

 

 体现数据的集中性

 随机变量的数字特征

 5.2 方差

 体现数据的波动情况、越大说明波动越大

 

 

如何通俗地理解协方差和相关系数?

协方差代表了两个变量之间的是否同时偏离均值。

 

 

 

 

 5.3 大数定律和中心极限定理

 大数定律:当次数足够多可以用频率代替概率

 

简单而言,大数定律讲的是样本均值收敛到总体均值(就是期望)

中心极限定律

而中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布,就像这个图:

 

 抽样分布

抽样分布就是统计量的分布,其特点是不包含未知参数且尽可能多的概括了样本信息。

除了常见的正态分布之外,还有卡方分布、t分布和F分布为最常见的描述抽样分布的分布函数。

这几个分布函数在数理统计中也非常有名。我们常说的卡方检验、t检验和F检验就跟这三个分布有关。
下面分别从定义、性质、函数图像和分位数等方面介绍三大分布。

 

 

 

 

 

 

posted on 2019-10-01 20:26  foremost  阅读(761)  评论(0编辑  收藏  举报