1. 二项分布
二项分布也叫 0-1 分布,如随机变量 x 服从二项分布,关于参数 μ(0≤μ≤1),其值取 1 和取 0 的概率如下:
{p(x=1|μ)=μp(x=0|μ)=1−μ
则在 x 上的概率分布为:
Bern(x|μ)=μx(1−μ)1−x
2. 服从二项分布的样本集的对数似然函数
给定样本集 D={x1,x2,…,xB} 是对随机变量 x 的观测值,假定样本集从二项分布 p(x|μ) 中独立(p(x1,x2,…,xN)=∏ip(xi))采样得来,则当前样本集关于 μ 的似然函数为:
p(D|μ)=∏n=1Np(xn|μ)=∏n=1Nμxn(1−μ)1−xn
从频率学派的观点来说,通过最大似然函数的取值,可以估计参数 μ,最大化似然函数,等价于最大化其对数形式:
则有:
lnp(D|μ)===lnμ∑n=1Nxn+ln(1−μ)∑n=1N1−xnlnμ∑n=1Nxn+ln(1−μ)(N−∑n=1Nxn)∑n=1Nxnlnμ+(1−xn)ln(1−μ)
求其关于 μ 的导数,解得 μ 的最大似然解为:
μML=1N∑n=1Nxn
这里我们仅关注:
lnP(D|μ)=∑n=1Nxnlnμ+(1−xn)ln(1−μ)
3. 交叉熵损失函数
LH(x,z)=−∑n=1Nxnlogzn+(1−xn)log(1−zn)
x 表示原始信号,z 表示重构信号。(损失函数的目标是最小化,似然函数则是最大化,二者仅相差一个符号)。