机器学习：极大似然估计

极大似然估计（Maximum Likelihood Estimate，MLE）

由于样本数据，是实实在在发生的数据，有理由相信该样本出现的概率本来就比较大，极大似然估计假设该样本出现的概率是最大的，然后通过该样本寻找一组参数，该参数使得该样本出现的概率最大

比如：班里有 50 个男生，50 个女生，我们拥有所有男生的身高数据，也拥有所有女生的身高数据，假定男生的身高服从正态分布，女生的身高服从另一个正态分布，这时可以用极大似然法，通过 50 个男生和 50 个女生的样本来估计这两个正态分布的参数，该参数使得样本数据出现的概率最大

设有样本 \(\large X = (x_{1}, x_{2}, ..., x_{n})\)
预测算法的参数为 \(\small \theta\)，不同参数下 X 出现的概率不同，表示为

\(\large P(X|\theta) = P(x_{1}, x_{2}, ..., x_{n}|\theta) = \prod_{i=1}^{n}P(x_{i}|\theta)\)

极大似然估计就是求解使得 \(\small P(X|\theta)\) 为最大值的 \(\small \theta\)

实际中为了方便计算，经常改成对数形式

\(\large ln(\prod_{i=1}^{n}P(x_{i}|\theta)) = \sum_{i=1}^{n}(ln(P(x_{i}|\theta)))\)

以上面例子中的正态分布为例，一维正态分布函数为

\(\large f(x) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^{2}}{2 \sigma^{2}})\)

则有

\(\large P(X|\theta) = \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_{i}-\mu)^{2}}{2 \sigma^{2}})\)

\(\large = (2\pi\sigma^{2})^{-\frac{n}{2}}exp(-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2})\)

取对数

\(\large H(\mu,\sigma^{2}) = ln(P(X|\theta))\)

\(\large = ln((2\pi\sigma^{2})^{-\frac{n}{2}}exp(-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}))\)

\(\large = -\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\sigma^{2}) - \frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\)

求导得到

\(\large \frac{\partial H(\mu,\sigma^{2})}{\partial \mu} =\frac{1}{\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)\)

\(\large \frac{\partial H(\mu,\sigma^{2})}{\partial \sigma^{2}}=-\frac{n}{2\sigma^{2}}+ \frac{1}{2\sigma^{4}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\)

另导数为 0 求解得到

\(\large \mu = \frac{1}{n}\sum_{i=1}^{n}x_{i}\)

\(\large \sigma^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\)

这两个参数使得样本出现的概率最大
于是就用这两个参数代入正态分布函数，用以预测新的数据

posted @ 2020-03-15 01:34 moon~light 阅读(341) 评论(0) 收藏举报

刷新页面返回顶部

moon__light

机器学习：极大似然估计

公告