概率分布是个啥子嘞?

干掉让人头大的概率分布

参考【猴子机器学习】

欠下的早晚得还~

so 什么是概率分布呢?

从数据类型讲起

一般在统计学中,数据类型也叫随机变量

两种数据类型:
离散型:取值不连续,每个数据之间有明确的间隔
连续型:取值连续:可以想象成一条连续平滑的曲线

什么是分布?

其实就是数据在统计图中的分布

概率分布就是将上面两个东东(数据类型+分布)组合起来的一种表现手段:
概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率。知乎

那么,问题就来了。为什么你要关心数据类型呢?

因为数据类型会影响求概率的方法。

对于离散概率分布,我们关心的是取得一个特定数值的概率。例如抛硬币正面向上的概率为:p(x=正面)=1/2
而对于连续概率分布来说,我们无法给出每一个数值的概率,因为我们不可能列举每一个精确数值。
例如,你在咖啡馆约妹子出来,你提前到了。为了给妹子留下好印象,你估计妹子会在5分钟之内出现,有可能是在4分钟10秒以后出现,或者在4分钟10.5秒以后出现,你不可能数清楚所有的可能时间,你更关心的是在妹子出现前的1-5分钟内(范围),你把发型重新整理下(虽然你因为加班头发 已经秃顶了,但是发型不能乱),给妹子留个好印象。所以,对于像时间这样的连续型数据,你更关心的是一个特定范围的概率是多少。

当统计学家们开始研究概率分布时,他们看到,有几种形状反复出现,于是就研究他们的规律,根据这些规律来解决特定条件下的问题。

因此常见的概率分布模型,可以理解为模板,遇到问题了不妨套模板解决问题

常见概率分布

1)3种离散概率分布

二项分布

二项分布有啥用呢?

当你遇到一个事情,如果该事情发生次数固定,而你感兴趣的是成功的次数,那么就可以用二项分布的公式快速计算出概率来。

例如你按我之前的《投资赚钱与概率》买了这5家公司的股票(谷歌,Facebook,苹果,阿里巴巴,腾讯),为了保底和计算投入进去多少钱,你想知道只要其中3个股票帮你赚到钱(成功的次数)的概率多大,那么这时候就可以用二项分布计算出来。

二项分布的特点

1)做某件事次数是固定的,用n表示
2)每一次事件都有两个可能的结果(成功,或者失败)
3)每一次成功的概率都是相等的,成功的概率用p表示
4)你感兴趣的是成功x次的概率是多少

公式

\(p(x)=C_{\mathrm{n}}^{x} p^{x}(1-p)^{n-x}\)

就是计算做某件事情n次,成功x次的概率的。很多数据分析工具(Excel,Python,R)都提供工具让你带入你研究问题的数值,就能得到结果。

二项分布的平均值和标准差

期望E(x)=np (表示某事情发生n次,预期成功多少次。)
标准差 \(\sigma(x)=\sqrt{n p(1-p)} \quad\) (表示数据波动大小)

几何分布

如果你需要知道尝试多次能取得第一次成功的概率,则需要几何分布。

只要符合下面4个特点就可以判别你做的事情是就是几何分布了:

1)做某事件次数(也叫试验次数)是固定的,用n表示
(例如抛硬币3次,表白5次),
2)每一次事件都有两个可能的结果(成功,或者失败)
(例如每一次抛硬币有2个结果:正面表示成功,反面表示失败。
每一次表白有2个结果:表白成功,表白失败)。
3)每一次“成功”的概率都是相等的,成功的概率用p表示
(例如每一次抛硬币正面朝上的概率都是1/2。
假设你是初出茅庐的小伙子,还不是老油条,所以你表白每一次成功的概率是一样的)
4)你感兴趣的是,进行x次尝试这个事情,取得第1次成功的概率是多大。
(例如你在玩抛硬币的游戏,想知道抛5次硬币,只有第5次(就是滴1次成功)正面朝上的概率是多大。
你表白你的暗恋对象,你希望知道要表白3次,心仪对象答应和你手牵手的概率多大。)

计算概率的公式

\(p(x)=(1-p)^{x-1} p\)

p为成功概率,即为了在第x次尝试取得第1次成功,首先你要失败(x-1)次。

假如在表白之前,你计算出即使你尝试表白3次,在最后1次成功的概率还是小于50%,还没有抛硬币的概率高。那你就要考虑换个追求对象。或者首先提升下自己,提高自己每一次表白的概率,

几何分布的期望是E(x)=1/p。代表什么意思呢?

假如你每次表白的成功概率是60%, 同时你也符合几何分布的特点, 所以期望 \(E(x)=1 / p=1 / 0.6=1.67\)
所以你可以期望自己表白1.67次(约等于2次)会成功。这样的期望让你信息倍增,起码你不需要 努力上100次才能成功,2次还是能做到的,有必要尝试下。

泊松分布

如果你想知道某个时间范围内发生某件事情x次的概率是多大。这时候就可以用泊松分布轻松搞定。比如一天内中奖的次数,一个月内某机器损坏的次数等。

当然是根据概率的大小来做出决策了。比如你搞了个抽奖活动,最后算出来一天内中奖10次的概率都超过了90%,然后你顺便算了下期望,再和你的活动成本比一下,发现要赔不少钱。那这个活动就别搞了。

泊松分布的形状会随着平均值的不同而有所变化,无论是一周内多少人能赢得彩票,还是每分钟有多少人会打电话到呼叫中心,泊松分布都可以告诉我们它们的概率。

泊松分布的特点

1)事件是独立事件
(之前如果你看过我的《投资赚钱与概率》已经知道赌徒谬论了,所以类似抽奖这样的就是独立事件)
2)在任意相同的时间范围内,事件发的概率相同
(例如1天内中奖概率,与第2天内中间概率相同)
3)你想知道某个时间范围内,发生某件事情x次的概率是多大
(例如你搞了个促销抽奖活动,想知道一天内10人中奖的概率)

适用场景

用x代表事情发的次数(例如中奖10个人中奖),u代表给定时间范围内事情发生的平均次数(例 如你搞的抽奖活动1天平均中奖人数是5人),概率计算公式为:
\(\[ p(x)=\frac{u^{x} e^{-u}}{x !} \]\)
可别被上面的公式审到,数学公式就是纸老虎,现在有很多工具 (Excel, Python, R) 都可以直 接计算出来这个概率,所以也别记住这个公式, 用的时候知道泊松分布适合舍时候用就妥了。
例如你搞了个促销抽奖活动,只知道1天内中奖的平均个数为5个,你想知道1天内恰巧中奖次数为 7的概率是多少?
此时x=7,u=5(区间内发生的平均次数),代入公式求出概率为10.44%。Excel中的函数为 POISSON.DIST就可以立马算出来。
泊松概率还有一个重要性质,它的数学期望和方差相等,都等于u

2)1种连续概率分布

正态分布

在开始介绍之前,你先回顾下这两个知识:

期望:就是概率的平均值

方差:衡量数据波动的大小

这里多bb两句

看懂数据一般从4个方面进行分析

首先需要知道:描述统计学的关键点在于找到几个关键的数字来描述数据集的整体情况。

第1个是平均值,但是平均值的缺点是对异常值不敏感,所以描述数据非常不准确。很多人会陷入平均值的陷阱,以及经常感叹自己的工资为何被平均了。
以后新闻报告中再见到平均值,你就改小心了,别被忽悠了。我们要用知识打败这个信息爆炸的世界。
第2个是四分位数,经常用箱线图来表示。四分位数有两个典型的应用:
1)常常用来比较不同类别数据的整体情况。之前社群会员也用箱线图做过不同年限数据分析人员的薪资水平,一目了然。
2)四分位数的第2个应用是可以识别出异常值。有一个方法叫Tukey's test用的就是四分位数。
第3个是标准差,用于衡量数据的波动大小。一般NBA球员稳定性,和股票风险就是用标准差来衡量的。
第4个是标准分,用于表示某数值的相对排名,用于不同数据集间的比较。深圳中考排名就用过标准分来计算孩子的中考成绩,方便家长选学校。

posted @ 2020-08-05 22:15  高文星星  阅读(730)  评论(0编辑  收藏  举报