摘要: 2.2 Multinomial variables多项变量的分布 考虑多项变量即K个互斥变量(可能取值),使用1-of-K方式表示为K维向量x,其中某个向量xk=1,且其他向量=0。例如某个变量发生,对应向量为x3,则x3=1 :xk=1发生的概率为μk,那么x的分布为:这里,且,该分布可以看作是Bernoulli分布多输出的普遍形式,很明显上式是归一化的normalized:考虑N个独立观测值 {x1,…,xN} 数据集D, 对应的似然函数:其中:代表xk=1在D中发生次数。这是都是该分布的完全统计sufficient statistics。2.29的限制条件是,那么可以使用拉格朗日乘子法对 阅读全文
posted @ 2014-02-18 10:22 嗯Jeffrey 阅读(827) 评论(0) 推荐(0) 编辑
摘要: Bernouli 分布 单变量x ∈{0, 1} ,x的概率由参数 μ,表示: 统一格式,有: Bernouli 分布,期望与方差: 对于x的观察数据集 ,似然函数是 μ 的函数,假定 xi 之间独立,有: 从频率论角度,我们可以用最大化似然函数的方法(等价于最大化ln函数)来评估 μ 值,似然函数的自然对数有: 使得 lnp(D|μ)=0 ,得到μ 的最大似然估计: 也即是样本均值,x=1的个数为m,则: 对于仍硬币实验,总共仍了3次,且出现的都是正面,那么μ ML= 1,预测以后都是扔出正面了,最大似然估计造成了over-fitting。对于小样本集更容易引起该问题,后面会介绍引入μ .. 阅读全文
posted @ 2014-02-15 09:49 嗯Jeffrey 阅读(2003) 评论(0) 推荐(0) 编辑
摘要: 从一个回归问题开始:给定一个real-valued input variable \(x\),通过这个observation预测a real-valued target variable \(t\) 。 本节将讨论一个简单的曲线拟合例子,这个例子将贯穿整章用于梳理一些重要的机器学习概念。 training set: \(N\)个obeservations: \(\mathbf{x}\equiv(x_1,\ldots,x_N)^T\) target values: \( \mathbf{t}\equiv(t_1\ldots,t_N)^T\) train... 阅读全文
posted @ 2013-12-19 23:22 嗯Jeffrey 阅读(3538) 评论(0) 推荐(1) 编辑
摘要: 以手写数字自动识别为例,每个手写数字用\(28*28\) 像素图像显示,这样每个样本可以用一个维数为794的向量\(x\)表示。那么将问题转换为建立一套识别机制,通过输入\(x\) ,识别出数字的真实值,并且输出该值,值的范围是 \(0\ldots9\) 。这是个典型的分类问题,自然的想法是通过一些人工的规则和基于形状的辨别方法,但是由于手写体的变化太多,这种固定的处理模式在现实中效果非常不好。一种更好的解决方式就是 machine learning了: training set \(N\)个数字图像 \(\{\mathrm{X}_1,\ldots,\mathrm{X}_N\}\) ,用于.. 阅读全文
posted @ 2013-12-18 22:07 嗯Jeffrey 阅读(287) 评论(0) 推荐(0) 编辑