摘要: 1.贝叶斯统计 贝叶斯用概率反映知识状态的确定性程度 数据集能够被直接观测到,因此不是随机的 另一方面,真实参数 θ 是未知或不确定的,因此可以表示成随机变量 相对于最大似然估计,贝叶斯估计有两个重要区别: 第一,不像最大似然方法预测时使用 θ 的点估计,贝叶斯方法使用 θ 的全分布 在观测到 m 阅读全文
posted @ 2018-11-29 15:32 大来 阅读(512) 评论(0) 推荐(0) 编辑
摘要: 1.最大似然估计 我们首先要定义可能性: 并且在θ的所有取值上,使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计。 2.KL 散度 只需要最小化 最小化 KL 散度其实就是在最小化分布之间的交叉熵 3.条件对数似然和均方误差 估计条件概率 P(y | x;θ),从而给定 x 预测 y 阅读全文
posted @ 2018-11-29 14:53 大来 阅读(309) 评论(0) 推荐(0) 编辑