机器学习七参数估计方法 - Vpegasus

参数估计方法

推断问题中, 一般会碰到两个问题: 1.参数估计问题: 已知观测数据集 X, 估计其分布参数 $\theta$, 也就是$p(\theta|X)$ 2. 预测或回归问题: 已知观测数据集 X, 推测新观测数据 $\tilde{x}$, 也就是计算$p(\tilde{x}| X )$.

数据集 X 可以被认为是独立同分布的随机变量 $\mathscr{X}$ 的观测值. $\theta$ 则是分布参数, 比如, 在高斯分布中: $\theta = \{\mu, \sigma^2\}$.

根据贝叶斯定理:

\[p(\theta|X) = \frac{p(X|\theta)\cdot p(\theta)}{p(X)} \]

上面的定理可用如下解释:

\[posterior = \frac{likelihood\cdot prior}{evidence} \]

Maximum likelihood estimation

\[L(\theta| X) \triangleq p(X|\theta) = \bigcap_{x\in X}P\{\mathscr{X} = x|\theta\} = \prod_{x\in X} p(x|\theta) \]

对上式取log , 可得如下化简的估计式:

\[\hat{\theta}_{ML} = \arg \max_{\theta} \mathscr{L}(\theta|X) = \arg\max_{\theta} \sum_{x\in X}\log p(x|\theta) \]

其中 $\mathscr{L} \triangleq\log L $.

求解方式也很自然:

\[\frac{\partial \mathscr{L}(\theta|X)}{\partial \theta_k} = 0 \qquad \forall \theta_k \in \theta \]

对于预测问题:

\[p(\tilde{x}|X) = \int_{\theta\in\Theta}p(\tilde{x}|\theta)p(\theta|X)d \theta\approx \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta}_{ML})p(\theta|X)d\theta = p(\tilde{x}|\hat{\theta}_{ML}) \]

例子:

有一硬币, 出现正面的概率是p, 重复投掷N次,估计 p

根据上面的ML:

\[\begin{array}\\ \mathscr{L} &=& \log\prod_{i = 1}^N p(X= x_i|p) \\ &=& \sum_{i = 1}^N\log p(x_i|p) = \sum_{i =1}^N\log(p^c\cdot p^{1-c}) \\ &=& \sum_{i = 1}^N\{\log p(c =1|p)+\log p(c=0|p)\}\\ &=& n_1 \log p(c=1|p) + n_0\log p(c=0|p)\\ &=& n_1 log p + n_0 log(1-p) \end{array} \]

其中 c取 1(正面), 0(背面). n1, n0 分别为正, 背面出现的次数,显然: n1 + n0 = N.

则:

\[\frac{\partial \mathscr{L}}{\partial p} = \frac{n_1}{p} + \frac{n_0}{1-p} = 0 ==> \hat{p} = \frac{n_1}{N} \]

Maximum a posteriori(MAP) estimation

MAP 在ML的基础上对参数加上先验信念(priori belief),操作上,即对参数进行加权(权重即为其出现的概率(先验的) $p(\theta)$), 虽是这样, 但信念却不等同于概率.

\[\hat{\theta}_{MAP} = \arg\max_{\theta} p(\theta|X) \]

由贝叶斯定理:

\[\begin{array}\\ \hat{\theta}_{MAP} &= &\arg\max_{\theta}\frac{p(X|\theta)p(\theta)}{p(X)}\\ &=&\arg\max_{\theta}p(X|\theta)p(\theta) \\ &=& \arg\max_{\theta}\{{\mathscr{L}(\theta|X)}+\log p(\theta)\} \\ &=& \arg\max_{\theta}\{\sum_{x\in X}\log p(x| \theta) + \log p(\theta)\} \end{array} \]

其中, P(X) 因不是$\theta$的函数, 故可省略.

在MAP中, $\theta$ (一般多维) 被认为是随机变量(列), 正如上面所述, $\theta$ 的信念虽是以概率表示,

对于预测问题:

\[p(\tilde{x}|X) = \int_{\theta\in\Theta}p(\tilde{x}|\theta)p(\theta|X)d \theta\approx \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta}_{ML})p(\theta|X)d\theta = p(\tilde{x}|\hat{\theta}_{ML}) \]

再次考虑上面的例子, 一般我们会猜, 硬币两面出现的概率d大致相等, 即 p 的概率应该在0.5 附近. 这可表示为p 拥有一个先验分布, 且在 0.5 附近有很高的概率密度. 比如我们可能认为 p 服从 beta分布:

\[p(p| \alpha, \beta) = \frac{1}{B(\alpha, \beta)}p^{\alpha-1}(1-p)^{\beta - 1} \triangleq Beta(p|\alpha, \beta) \]

其中, $B(\alpha,\beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha +\beta)}$, 而 $\Gamma(x) = \int_{0}^{\infty}t^{x-1}e^{-t}dt$.

因此对 (9)式求(偏)导:

\[\frac{\partial }{\partial p}(\mathscr{L} + \log p(p)) = \frac{n_1}{p}+ \frac{n_0}{1- p} + \frac{\alpha - 2}{p} - \frac{\beta - 1}{1- p} = 0\\ ==> \hat{p}_{MAP} = \frac{n_1 +\alpha -1 }{N+\alpha+\beta - 2} \]

Bayesian estimation

在MAP中，只取了P(θ|X)的峰值作为θ的估计，忽略了θ的其他可能性，可能丢失信息。贝叶斯在MAP的基础上更进一步, 把θ的所有可能取值考虑进来，然后算posterior分布上的期望.

同样的, 根据贝叶斯定理:

\[p(\theta|X) = \frac{p(X|\theta)\cdot p(\theta)}{p(X)} \]

在贝叶斯估计中, P(X) 可能表示成参数的分布上的所有可能性的期望:

\[p(X) = \int_{\theta \in \Theta}p(X|\theta)p(\theta)d\theta \]

预测问题:

\[p(\tilde{x}|X) = \int_{\theta\in\Theta}p(\tilde{x}|\theta)p(\theta|X)d \theta\\ \approx \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta})p(\theta|X)d\theta\\ = \int_{\theta\in \Theta}p(\tilde{x}|\hat{\theta})\frac{p(X|\theta)\cdot p(\theta)}{p(X)} \]

再看上面的例子, 仍令 $\theta $服从Beta 分布:

\[\begin{array}\\ p(\theta|X)& =& \frac{p(X|\theta)\cdot p(\theta|\alpha, \beta)}{p(X)}\\ &= & \frac{p(X|\theta)\cdot p(\theta|\alpha, \beta)}{\int_{\theta \in \Theta}p(X|\theta)p(\theta|\alpha,\beta)d\theta}\\ &=& \frac{\prod_{i = 1}^Np(X=x_i|p)p(p|\alpha,\beta)}{\int_0^1 \prod_{i = 1}^Np(X=x_i|p)p(p|\alpha,\beta)dp}\\ &=& \frac{p^{n_1+\alpha-1}(1-p)^{n_0 +\beta-1}\frac{1}{Beta(\alpha,\beta)}p^{\alpha -1}(1-p)^{\beta -1}}{Z}\\ &=& Beta(p| n^1+\alpha, n^0+\beta) \end{array} \]

其中Z 为Beta分布的归一化因子.

\[E p(p|X) = \frac{n^1 + \alpha}{N+\alpha +\beta} \]

共轭分布:

一个似然概率$p(x|\theta)$的共轭先验分布$p(\theta)$ 是使参数的后验分布的形式与其相一致的分布, 如上面例子的贝叶斯估计中, 我们令 p 的概率分布服从 beta分布, 经计算p 的后验也是beta分布, 只不过分布的参数由原来的$(\alpha, \beta)$变成 $(n^1+\alpha,n^0+\beta)$. 而这个似然概率是二次分布(N次重复的做bernulli 实验). 也即二项分布的共轭分为beta分布.

推广:

多项分布的共轭分布为 Dirichlet 分布.

多项分布:

\[p(n|p,N) = \Big(_n^N \Big) \prod_{k =1}^K p_k^{n(k)} \triangleq Mult(n|p,N) \]

Dirichlet分布:

\[p(p|\alpha) = D(p|\alpha)\triangleq \frac{\Gamma(\sum_{k=1}^K \alpha)}{\prod_{k=1}^K\Gamma(\alpha_k)}\prod_{k =1}^Kp_k^{\alpha_k -1} = \frac{\prod_{k =1}^Kp_k^{\alpha_k -1}}{\Delta(\alpha)} \]

其中, $\Delta(\alpha) =\frac{\prod_{k=1}^K\Gamma(\alpha_k)} {\Gamma(\sum_{k=1}^K \alpha)}$.

posted on 2018-01-20 17:01 Vpegasus 阅读(516) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部