在本篇文章中,我们讨论一下利用线性模型进行分类的有关问题。
与回归问题不同,分类问题的输出不是一个连续的值,而是一个离散的量(k=1....K),在大多数场景中,classes之间通常是互斥的(disjiont),也就是说每一个输入只能属于一个类别,也就有了决策边界、决策面之说。在本文中,如果数据集的类别可以被线性决策面精确分开,那么该数据集就是线性可分的。在概率论模型中,如何是两类问题,我们可以用t=0,t=1去表示不同的类别。对于K>2时,我们用向量t=(0,1,0,0,0)T来表示,它表示5个类别中的第2类,用tk的值表示它属于类Ck的概率,使用p(x,t)对这种不确定性进行建模,从训练集中确定p(x,t)的方法就是一种典型的推断过程,然后才是决策过程(依据合适的概率)。也就是在给定X的条件下确定合适的类别,p(Ck|x)=p(x|Ck)p(Ck)/p(x),而在这个式子中出现的所有量都可以通过对联合分布p(x,Ck)的相关操作完成(边缘化或条件概率),而p(Ck)则是类别Ck的先验概率,p(Ck|x)则是相应的后验概率,我们的目标就是寻找后验概率最大的类别。错分概率为,以两类问题为例:
(1)
最小化分类错误率相当于最大化后验概率p(Ck|x)
为了使线性回归函数输出离散值,我们在函数外面加上一层激活函数(activation function),
(2)
由于f是非线性的,导致y与参数之间的关系也是非线性的,这将产生更复杂的分析和计算问题。