基于实例的分类器(懒惰分类器)以K-nearest为例说明
拿测试实例跟已有的实例的比较,若测试实例跟训练实例一模一样,那毫无疑问该测试实例就是属于这一类,但情况并未都是如此,大部分情况下,得选择该测试实例跟那个已有的实例的“距离”最短,这个距离就得根据具体情况具体分析了,在求两实例的“距离”前得先计算下,一实例在一个属性上表现出的多种特征之间的“距离”。所以得先定义来两特征之间的“距离”,再定义两实例的“距离”。
这个分类效果是显著的,但是不足之处也是明显的,因为懒惰,来一个实例,就得计算与其他已有实例的距离,那代价是高。
贝叶斯分类器
P(C| A1,A2,...A3) 指事件C在事件A1A2A3都发生的情况下的概率,根据贝叶斯公式
P(C)和P(A1, A2...An)是容易得到的,但是P(A1, A2...An | C)是难以得到的,而在假设所有事件是独立的情况下,P(A1, A2, …, An |C) = P(A1| Cj) P(A2| Cj)… P(An| Cj) j is from 1 to n.
这样的话,就可以很容易算出概率,再选择最大的概率。不足之处在于这个各事件之间未必是真正独立的。