机器学习 - 1 - 数学基础
机器学习 - 1 - 数学基础
本系列博客为本人课程笔记。
统计是已知数据,推模型和参数。
最大似然估计
-
似然函数
\(\theta\) 是概率密度的一个确定性的参数集(分布参数,例如正态分布中的 \(\mu\) 或 \(\sigma\) ), \(P(X^{(N)};θ)\) 是条件概率密度\(P(x^{(N)}|θ)\)。
如果各个\(x_j(j = 1,2,3...N)\)是独立抽取的,则进一步有:\[P(x^{(N)}|\theta )=\prod_{j=1}^{N}P(x_j|\theta) \] -
若似然函数可微,求微分方程组的解,或等价求对数似然方程组的解,作为极值的必要条件,求得似然函数的最大值,进一步求得 \(\theta\)。
-
最大似然估计是将带估计的参数看作是确定的量,但是取值未知,它只考虑某个模型能产生某个给定观察序列的概率,而未考虑该模型本身的概率。(我知道这个序列应该是服从xx分布的)
最大后验概率估计
-
贝叶斯公式:
\[P(B_i|A) = \frac{P(B_i)P(A|B_i)}{\sum_{j=i}^{n}P(B_j)P(A|B_j)} \]贝叶斯公式给出了“结果”事件 A 已经发生的条件下,“原因”事件 B 的条件概率,对结果的任何观测都将增加我们对原因事件B的真正分布的知识,即:
\[后验概率 = \frac{先验概率\times似然函数}{证据因子} \]贝叶斯公式就是在描述,你有多大把握能相信一件证据,即原因B
-
最大似然估计求参数 \(\theta\) ,使似然函数 \(P(x_0|\theta)\) 最大。最大后验概率估计则是求 \(\theta\) ,使 \(P(\theta)P(x_0|\theta)\) 最大,由于证据因子已经确定,所以此时求得最大的后验概率,即最大化某个原因。
-
最大后验估计的融入了要估计量的先验分布在其中,可看做是规则化的最大似然估计。其中加入了模型参数本身的概率分布,并允许我们把先验知识加入到估计模型中。
本节参考:
posted on 2018-10-05 16:22 ChildishChange 阅读(201) 评论(0) 编辑 收藏 举报