上次提到的手写数字的识别就是一个多分类的问题,有10种不同的分类(0-9)。
在神经网络中我们所做的多分类问题是the one VS all方法的延伸,让我们看一个computer vision的例子,在这个例子中,我们要对图片进行4个分类:步行,car,摩托车,火车。
我们建立的这个神经系统,它有4个output units,即输出一个有4个元素的向量,第一个node用来判断是否为步行,第二个node用来判断是否为car,第三个node用来判断是否为motocycel,第4个node用来判断是否为truck.
当那个图片是步行时,我们希望神经网络输出的是{1,0,0,0}T,如果图片是car时,希望输出的是{0,1,0,0}T;如果是motocycle,希望输出的是{0,0,1,0}T.......
这个算法与one vs all算法类似,在这儿我们实际是有4个logistic regression classfiers,每个classfier都是试图区分4个类别中的一个
之前的one-vs-all方法的y是取整数€{1,2,3,4},在这儿y(i)为一个4维的向量。一个trainning example是(x(i),y(i)),x(i)是一个image,y(i)是上述4个向量中的一个。hΘ(x(i))≈y(i),其中hΘ(x(i))与y(i)是都4维向量(当我们有4个类别时),而不是与之前的logistic regression一样的一个概率值.( logistic regression: hθ(i)(x) = P(y=i|x;θ) (i=1;2;3))