概率分析是是使用概率预测分析不确定因素和风险因素对项目经济效果的影响的一种定量分析方法。
由于概率的原因所引起的实际价值与估计价值或预期价值之间的差异,通常称为风险性,因此概率分析亦可称为风险分析。
概率分析涉及的技术非常多,本文只涉及相关基础概念的介绍部分。
随机变量(random variable)
随机变量是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。 它是由于随机而获得的非确定值,是概率中的一个基本概念。
在经济活动中,随机变量是某一事件在相同的条件下可能发生也可能不发生的事件。
随机变量的例子:
某一时间内公共汽车站等车乘客人数,
电话交换台在一定时间内收到的呼叫次数,
随机事件(Random variables events)
随机事件是指在相同条件下,可能出现也可能不出现的事件。
例子:
从一批有正品和次品的商品中,随意抽取一件,“抽得的是正品”就是一个随机事件。
其它特殊事件还包括:必然事件、不可能事件...
概率(Probability)
概率:对随机事件发生之可能性的大小度量。
值是一个在0到1之间的实数,也常以百分数来表示。
概率分布(probability distribution)
概率分布:是指用于表述随机变量取值的概率规律,分布形状。
事件的概率表示了一次试验中某一个结果发生的可能性大小。
在统计图中横轴是数据的值,纵轴是横轴上对应数据值的概率。
若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。
概率分布包括:离散概率分布(概率质量函数PMF),连续概率分布(概率密度函数PDF),比如:
明天是否下雨是离散随机变量;
明天下雨量是连续随机变量。
离散型概率分布是一条条垂直于X轴的垂线(或矩形柱),每条垂线与X轴的交点代表事件可能发生的结果,垂线上端点对应的Y轴表示该结果发生的概率(区别于概率密度)。
连续概率分布(continuous probability distribution)
连续型随机变量是指如果随机变量X的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任一点的随机变量。
连续型随机变量例子:
一批电子元件的寿命、实际中常遇到的测量误差等都是连续型随机变量。
公共汽车每15分钟一班,某人在站台等车时间x是个随机变量,
x的取值范围是[0,15),它是一个区间,从理论上说在这个区间内可取任一实数3分钟、5分钟7毫秒、7√2分钟,在这十五分钟的时间轴上任取一点,都可能是等车的时间,因而称这随机变量是连续型随机变量。
幂律分布,正态分布 都是连续概率分布。
概率密度函数 PDF(probability density function)
在数学中,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
下图是正太分布(normal distribution)的概率密度函数
离散概率分布
有些随机变量,它全部可能取到的不相同的值是有限个或可列无限多个,也可以说概率1以一定的规律分布在各个可能值上。这种随机变量称为"离散型随机变量"。
一次掷20个硬币,k个硬币正面朝上,
k是随机变量,
k的取值只能是自然数0,1,2,…,20,而不能取小数3.5、无理数√20 ……
因而k是离散型随机变量。
掷一个骰子,令X为掷出的结果,则只会有1,2,3,4,5,6这六种结果,而掷出3.3333是不可能的。
因而X也是离散型随机变量。
常见离散概率分布:伯努利分布,二项分布,几何分布,泊松分布...
概率质量函数PMF
在概率论和统计学中,概率质量函数(probability mass function,简写pmf)是离散随机变量在各特定取值上的概率。 有时它也被称为离散密度函数。
伯努利试验(Bernoulli experiment)
伯努利试验是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。
我们假设该项试验独立重复地进行了n次,那么就称这一系列重复独立的随机试验为n重伯努利试验,或称为伯努利概型。
正态分布 Normal Distribution
正态分布也叫常态分布,是连续随机变量概率分布的一种,自然界、人类社会、心理和教育中大量现象均按正态形式分布,例如:能力的高低,学生成绩的好坏等都属于正态分布。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
下图这些都是正态分布
正态分布的中心点并不固定。
幂律分布(Power law)
幂律分布就是所谓的马太效应,二八原则,长尾理论。
伯努利分布 Bernoulli DIstribition
抛硬币,正面朝上的概率
伯努利分布(the Bernoulli distribution,又名两点分布或者0-1分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。)
- 若伯努利试验成功,则伯努利随机变量取值为1。
- 若伯努利试验失败,则伯努利随机变量取值为0。
- 记其成功概率为p,则失败概率为q = 1 − p。
下图是一次抛硬币,正面朝上为1,反面朝上为0的 概率分布:
二项分布 (Binnomial Distribution)
在概率论和统计学中,二项分布(Binomial distribution)是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。
这样的单次成功/失败试验又称为伯努利试验。
比如:
抛硬币5次中2次正面朝上的概率
抛硬币10次中得到5次正面的概率是多少?
从500个客户反馈调查中得到20个回复的概率是多少(假设得到回复的概率是相同的)?
下图是 5次抛硬币,正面朝上的次数概率分布
几何分布 Geometric Distribution
几何分布(Geometric distribution)是离散型概率分布。
其中一种定义为:在n次伯努利试验中,试验k次才得到第一次成功的机率。
详细地说:前k-1次皆失败,第k次成功的概率。
我需要买多少张彩票才能中奖?
表白K次中第一次成功的概率;
一天内中奖的次数;
一个月内机器损坏的次数;
几何分布的一个重要属性是它是无记忆的。事件的发生率不依赖于过去的试验。因此,发生率保持不变。
有一个赌徒在赌大小,他一直在押“大”,可是台上连续出了十把“小”,让他输了很多钱。
赌徒认为,前面出了那么多把“小”,再出“小”的可能性非常小了,他想把他的全部身家押“大”,搏一把翻本。
当然,这完全是赌徒心理,“扔了十把'小'条件下,下一把出‘大’”的概率和“扔一把就出‘大’”完全一样。
泊松分布 Poisson Distribution
泊松分布是一种离散分布,它表示一个事件在特定时间内可能发生的次数。
例子:
每天发生两次车祸的概率
盖革计数器每秒咔嗒的次数
每小时走入商店的人数
网络上每分钟的丢包数
可以看到,在平均频率附近,事件的发生概率最高,然后向两边对称下降,即变得越大和越小都不太可能。
常见分布的区分
从伯努利说起,简单来说:
- 伯努利是扔一次硬币;
- 二项分布是多次伯努利,即扔多次硬币;
- 泊松分布是\(p\)很小的二项,即扔好多好多次硬币,且扔出正面概率极小;
- 正态分布是\(n\)很大的二项,即扔好多好多次硬币,且硬币是完全相同的;
总结
概率其实跟我们生活紧密相关:
- 小广告:比如你经常上网看编程技术,更容易看到颈椎病治疗的广告;
- 输入法:比如为什么同是敲cjk,有人是“苍井空”,有人是“超级快”?
- 内容推荐:比如QQ弹个窗,要先估计你喜欢这个新闻的概率;
- 杀毒:估计一段字节代码是新病毒的概率;
- 图像识别:人脸登录系统、上传图片猜你年龄;
- ...
作为程序员,了解其算法、能帮我们更好的推荐、评估...,在服务业务上发挥更大价值。