最大似然估计
1.最大似然估计
我们首先要定义可能性:
2.KL 散度
只需要最小化
最小化 KL 散度其实就是在最小化分布之间的交叉熵
3.条件对数似然和均方误差
估计条件概率 P(y | x;θ),从而给定 x 预测 y
最大似然估计是
样本是独立同分布的,那么这可以分解成
4.最大似然的性质
在合适的条件下,最大似然估计具有一致性,意味着训练样本数目趋向于无穷大时,参数的最大似然估计会收敛到参数的真实值
真实分布 p data 必须在模型族 p model (·;θ) 中
真实分布 p data 必须刚好对应一个 θ 值