参数估计方法
推断问题中, 一般会碰到两个问题: 1.参数估计问题: 已知 观测数据集 X, 估计其分布参数 \(\theta\), 也就是\(p(\theta|X)\) 2. 预测或回归问题: 已知观测数据集 X, 推测新观测数据 \(\tilde{x}\), 也就是 计算\(p(\tilde{x}| X )\).
数据集 X 可以被认为是独立同分布的随机变量 \(\mathscr{X}\) 的观测值. \(\theta\) 则是分布参数, 比如, 在高斯分布中: \(\theta = \{\mu, \sigma^2\}\).
根据贝叶斯定理:
\[p(\theta|X) = \frac{p(X|\theta)\cdot p(\theta)}{p(X)}
\]
上面的定理可用如下解释:
\[posterior = \frac{likelihood\cdot prior}{evidence}
\]
Maximum likelihood estimation
\[L(\theta| X) \triangleq p(X|\theta) = \bigcap_{x\in X}P\{\mathscr{X} = x|\theta\} = \prod_{x\in X} p(x|\theta)
\]
对上式取log , 可得如下化简的估计式:
\[\hat{\theta}_{ML} = \arg \max_{\theta} \mathscr{L}(\theta|X) = \arg\max_{\theta} \sum_{x\in X}\log p(x|\theta)
\]
其中 $\mathscr{L} \triangleq\log L $.
求解方式也很自然:
\[\frac{\partial \mathscr{L}(\theta|X)}{\partial \theta_k} = 0 \qquad \forall \theta_k \in \theta
\]
对于预测问题:
\[p(\tilde{x}|X) = \int_{\theta\in\Theta}p(\tilde{x}|\theta)p(\theta|X)d \theta\approx \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta}_{ML})p(\theta|X)d\theta = p(\tilde{x}|\hat{\theta}_{ML})
\]
例子:
有一硬币, 出现正面的概率是p, 重复投掷N次,估计 p
根据上面的ML:
\[\begin{array}\\
\mathscr{L} &=& \log\prod_{i = 1}^N p(X= x_i|p) \\
&=& \sum_{i = 1}^N\log p(x_i|p) = \sum_{i =1}^N\log(p^c\cdot p^{1-c}) \\
&=& \sum_{i = 1}^N\{\log p(c =1|p)+\log p(c=0|p)\}\\
&=& n_1 \log p(c=1|p) + n_0\log p(c=0|p)\\
&=& n_1 log p + n_0 log(1-p)
\end{array}
\]
其中 c取 1(正面), 0(背面). n1, n0 分别为正, 背面出现的次数,显然: n1 + n0 = N.
则:
\[\frac{\partial \mathscr{L}}{\partial p} = \frac{n_1}{p} + \frac{n_0}{1-p} = 0 ==> \hat{p} = \frac{n_1}{N}
\]
Maximum a posteriori(MAP) estimation
MAP 在ML的基础上对 参数 加上先验信念(priori belief),操作上,即对参数进行加权(权重即为其出现的概率(先验的) \(p(\theta)\)), 虽是这样, 但信念却不等同于概率.
\[\hat{\theta}_{MAP} = \arg\max_{\theta} p(\theta|X)
\]
由贝叶斯定理:
\[\begin{array}\\
\hat{\theta}_{MAP} &= &\arg\max_{\theta}\frac{p(X|\theta)p(\theta)}{p(X)}\\ &=&\arg\max_{\theta}p(X|\theta)p(\theta) \\
&=& \arg\max_{\theta}\{{\mathscr{L}(\theta|X)}+\log p(\theta)\} \\
&=& \arg\max_{\theta}\{\sum_{x\in X}\log p(x| \theta) + \log p(\theta)\}
\end{array}
\]
其中, P(X) 因不是\(\theta\)的函数, 故可省略.
在MAP中, \(\theta\) (一般多维) 被认为是随机变量(列), 正如上面所述, \(\theta\) 的信念虽是以概率表示,
对于预测问题:
\[p(\tilde{x}|X) = \int_{\theta\in\Theta}p(\tilde{x}|\theta)p(\theta|X)d \theta\approx \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta}_{ML})p(\theta|X)d\theta = p(\tilde{x}|\hat{\theta}_{ML})
\]
再次考虑上面的例子, 一般我们会猜, 硬币两面出现的概率d大致相等, 即 p 的概率应该在0.5 附近. 这可表示为p 拥有一个先验分布, 且在 0.5 附近有很高的概率密度. 比如我们可能认为 p 服从 beta分布:
\[p(p| \alpha, \beta) = \frac{1}{B(\alpha, \beta)}p^{\alpha-1}(1-p)^{\beta - 1} \triangleq Beta(p|\alpha, \beta)
\]
其中, \(B(\alpha,\beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha +\beta)}\), 而 \(\Gamma(x) = \int_{0}^{\infty}t^{x-1}e^{-t}dt\).
因此对 (9)式 求(偏)导:
\[\frac{\partial }{\partial p}(\mathscr{L} + \log p(p)) = \frac{n_1}{p}+ \frac{n_0}{1- p} + \frac{\alpha - 2}{p} - \frac{\beta - 1}{1- p} = 0\\
==> \hat{p}_{MAP} = \frac{n_1 +\alpha -1 }{N+\alpha+\beta - 2}
\]
Bayesian estimation
在MAP中,只取了P(θ|X)的峰值作为θ的估计,忽略了θ的其他可能性,可能丢失信息。贝叶斯在MAP的基础上更进一步, 把θ的所有可能取值考虑进来,然后算posterior分布上的期望.
同样的, 根据贝叶斯定理:
\[p(\theta|X) = \frac{p(X|\theta)\cdot p(\theta)}{p(X)}
\]
在贝叶斯估计中, P(X) 可能表示成 参数的分布上的所有可能性的期望:
\[p(X) = \int_{\theta \in \Theta}p(X|\theta)p(\theta)d\theta
\]
预测问题:
\[p(\tilde{x}|X) = \int_{\theta\in\Theta}p(\tilde{x}|\theta)p(\theta|X)d \theta\\
\approx \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta})p(\theta|X)d\theta\\
= \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta})\frac{p(X|\theta)\cdot p(\theta)}{p(X)}
\]
再看上面的例子, 仍令 $\theta $服从Beta 分布:
\[\begin{array}\\
p(\theta|X)& =& \frac{p(X|\theta)\cdot p(\theta|\alpha, \beta)}{p(X)}\\
&= & \frac{p(X|\theta)\cdot p(\theta|\alpha, \beta)}{\int_{\theta \in \Theta}p(X|\theta)p(\theta|\alpha,\beta)d\theta}\\
&=& \frac{\prod_{i = 1}^Np(X=x_i|p)p(p|\alpha,\beta)}{\int_0^1 \prod_{i = 1}^Np(X=x_i|p)p(p|\alpha,\beta)dp}\\
&=& \frac{p^{n_1+\alpha-1}(1-p)^{n_0 +\beta-1}\frac{1}{Beta(\alpha,\beta)}p^{\alpha -1}(1-p)^{\beta -1}}{Z}\\
&=& Beta(p| n^1+\alpha, n^0+\beta)
\end{array}
\]
其中Z 为Beta分布的归一化因子.
\[E p(p|X) = \frac{n^1 + \alpha}{N+\alpha +\beta}
\]
共轭分布:
一个似然概率\(p(x|\theta)\)的共轭先验分布\(p(\theta)\) 是使参数的后验分布的形式与其相一致的分布, 如上面例子的贝叶斯估计中, 我们令 p 的概率分布服从 beta分布, 经计算p 的后验也是beta分布, 只不过分布的参数由原来的\((\alpha, \beta)\)变成 \((n^1+\alpha,n^0+\beta)\). 而这个似然概率是二次分布(N次重复的做bernulli 实验). 也即二项分布的共轭分为beta分布.
推广:
多项分布的 共轭分布为 Dirichlet 分布.
多项分布:
\[p(n|p,N) = \Big(_n^N \Big) \prod_{k =1}^K p_k^{n(k)} \triangleq Mult(n|p,N)
\]
Dirichlet分布:
\[p(p|\alpha) = D(p|\alpha)\triangleq \frac{\Gamma(\sum_{k=1}^K \alpha)}{\prod_{k=1}^K\Gamma(\alpha_k)}\prod_{k =1}^Kp_k^{\alpha_k -1} = \frac{\prod_{k =1}^Kp_k^{\alpha_k -1}}{\Delta(\alpha)}
\]
其中, \(\Delta(\alpha) =\frac{\prod_{k=1}^K\Gamma(\alpha_k)} {\Gamma(\sum_{k=1}^K \alpha)}\).