Lei's Blog

关注机器学习、信息检索、数据挖掘和推荐系统等研究领域

  :: 首页 :: 博问 :: 闪存 :: 新随笔 :: :: 订阅 订阅 :: 管理 ::

在本篇文章中,我们讨论一下利用线性模型进行分类的有关问题。

与回归问题不同,分类问题的输出不是一个连续的值,而是一个离散的量(k=1....K),在大多数场景中,classes之间通常是互斥的(disjiont),也就是说每一个输入只能属于一个类别,也就有了决策边界、决策面之说。在本文中,如果数据集的类别可以被线性决策面精确分开,那么该数据集就是线性可分的。在概率论模型中,如何是两类问题,我们可以用t=0,t=1去表示不同的类别。对于K>2时,我们用向量t=(0,1,0,0,0)T来表示,它表示5个类别中的第2类,用tk的值表示它属于类Ck的概率,使用p(x,t)对这种不确定性进行建模,从训练集中确定p(x,t)的方法就是一种典型的推断过程,然后才是决策过程(依据合适的概率)。也就是在给定X的条件下确定合适的类别,p(Ck|x)=p(x|Ck)p(Ck)/p(x),而在这个式子中出现的所有量都可以通过对联合分布p(x,Ck)的相关操作完成(边缘化或条件概率),而p(Ck)则是类别Ck的先验概率,p(Ck|x)则是相应的后验概率,我们的目标就是寻找后验概率最大的类别。错分概率为,以两类问题为例:

 

(1)

最小化分类错误率相当于最大化后验概率p(Ck|x)

为了使线性回归函数输出离散值,我们在函数外面加上一层激活函数(activation function),

(2)


由于f是非线性的,导致y与参数之间的关系也是非线性的,这将产生更复杂的分析和计算问题。

 

posted on 2012-09-05 22:37  Lei-Blog  阅读(306)  评论(0编辑  收藏  举报