概率论
常用概率分布
伯努利分布(Bernoulli distribution)
伯努利分布是单个二值随机变量的分布,它由单个参数Φ∈[0,1],Φ给出了随机变量等于1的概率。伯努利分布又称二点分布或0-1分布,即一次实验只有正例和反例两种可能。用随机变量表示就是X只能取0或者1,伯努利试验是只有两种可能结果的单次随机试验。假设一次试验出现正例的概率为p(0<p<1),那么P(X = 1) = p, P(X=0) = 1-p,可以统一表达为P(X=k) = pk(1-p)1-k,(k=0,1),则称X服从参数p的伯努利分布,记为X~Ber(p)。最简单的伯努利试验就是抛硬币,抛一次硬币,正反面出现的概率均为0.5,出现正面的分布是服从参数为0.5的伯努利分布。
它具有如下的一些性质:
1)P(x = 1) = Φ
2)P(x = 0) = 1- Φ
3)P(x = x) = Φx(1- Φ)1-x
4)Ex[x] = Φ
5)Varx(x) = Φ(1-Φ)
多项式分布(multinoulli distribution)
多项式分布或范畴分布是指在具有k个不同状态的单个离散型随机变量上的分布(k是一个有限值)。多项式分布是二项分布的扩展,二项分布是单变量分布,而多项分布是多变量分布。二项分布的典型例子是抛硬币,每次试验有正反两种对立的可能,多项分布的例子是扔骰子,每次试验有多种可能,进行多次试验,多项分布描述的是每种可能发生次数的联合概率分布。多项分布的概率公式为:
高斯分布(正态分布)
图:正态分布的概率密度函数。正态分布Ν呈现经典的“钟形曲线”,其中中心的x坐标由μ给出,峰的宽度受σ控制。图中为标准正态分布,其中μ=0,σ=1.
指数分布和Laplace分布
在深度学习中,我们经常会需要一个在x=0点处取得边界点的分布,则可使用指数分布:
一个联系紧密的概率分布是Laplace分布,它允许我们在任意一点μ处设置概率质量的峰值:
常用函数的有用性质
logistic sigmoid函数通常用来产生伯努利分布中的参数Φ,因为它的范围是(0,1),处在Φ的有效取值范围内:
Sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和现象,意味着函数会变得很平,并且对输入的微小改变会变得不敏感。
图:logistic Sigmoid 函数
Sigmoid函数相关性质:
1)σ(x) = ex /(ex +e0)
2)d(σ(x) )/dx = σ(x) (1-σ(x) )
3)1-σ(x) = σ(-x)
softplus函数可以用来产生正态分布的β和σ参数,因为他的范围是(0,∞)。当处理包含Sigmoid函数的表达式时也会经常出现:
ζ(x) = log(1+exp(x))
图:softplus函数
softplus函数相关性质:
1)ζ(x) - ζ(-x) = x
sigmoid函数和softplus函数关系:
1)log σ(x) = - ζ(-x)
2)d(ζ(x))/dx = σ(x)