数学统计基础-概率论与数理统计

排列数：

组合数：

关联规则：

1、联合概率和条件概率

联合概率：P（AB）两个概率同时发生的概率

2、关联规则算法

这个发现为商家带来了大量的利润，但是如何从浩如烟海却又杂乱无章的大数据中，发现啤酒和尿布销售之间的联系呢?这又给了我们什么样的启示呢?
关联规则分析

关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系，

找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

3、全概率公式

条件概率、全概率=贝叶斯公式

4、贝叶斯公式

P(B)=3/5 * 2/4 + 2/5 * 3/4 =3/5

2/4=P(B|A) 在A发生的条件下B发生（先因后果）

P(A/B)在B发生的条件下B发生 (先果后因)

贝叶斯公式及例题

14个数据，Y：9个买，X：5个不买

A对应age

B对应学student

判断是否为学生预测购买的概率

三、一维随机变量及其分布

数据的分散情况，分布在各未知的概率

区间的每个值都可以取到-----连续

只能取区间的部分点------离散

3.1离散型随机变量及其分布

Bernoulli分布

Poisson分布--

当二项分布的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np。通常当n≧20,p≦0.05时，就可以用泊松公式近似得计算。

通俗理解泊松分布

四、连续型随机变量及其概率密度

均匀分布

指数分布

指数分布公式的含义是什么？

正态分布

标准正态分布：
期望值μ=0，即曲线图象对称轴为Y轴，标准差σ=1条件下的正态分布，记为N(0，1)。

用软件处理小批量数据例如500M的SPSS ，电脑就带不动，必须用代码Python

spss侧重于假设和检验

python侧重于大数据的统计推断

泊松分布表示的是事件发生的次数，“次数”这个是离散变量，所以泊松分布是离散随机变量的分布。

指数分布是两件事情发生的平均间隔时间，“时间”是连续变量，所以指数分布是一种连续随机变量的分布。

可以用等公交车作为例子：

某个公交站台一个小时内出现了的公交车的数量 就用泊松分布来表示

某个公交站台任意两辆公交车出现的间隔时间 就用指数分布来表示

P(X<2)-P(X<1)

最小二乘法

做预测，做回归

最小二乘法，所谓“二乘”就是平方的意思

极大似然方法

极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！

换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

五、数值特征

5.1数学期望

体现数据的集中性

随机变量的数字特征

5.2 方差

体现数据的波动情况、越大说明波动越大

如何通俗地理解协方差和相关系数？

协方差代表了两个变量之间的是否同时偏离均值。

5.3 大数定律和中心极限定理

大数定律：当次数足够多可以用频率代替概率

简单而言，大数定律讲的是样本均值收敛到总体均值（就是期望）

中心极限定律

而中心极限定理告诉我们，当样本量足够大时，样本均值的分布慢慢变成正态分布，就像这个图：

抽样分布

抽样分布就是统计量的分布，其特点是不包含未知参数且尽可能多的概括了样本信息。

除了常见的正态分布之外，还有卡方分布、t分布和F分布为最常见的描述抽样分布的分布函数。

这几个分布函数在数理统计中也非常有名。我们常说的卡方检验、t检验和F检验就跟这三个分布有关。
下面分别从定义、性质、函数图像和分位数等方面介绍三大分布。

posted on 2019-10-01 20:26 foremost 阅读(809) 评论(0) 编辑收藏举报