摘要:
K最邻近密度估计技术是一种分类方法,不是聚类方法。不是最优方法,实践中比较流行。通俗但不一定易懂的规则是:1.计算待分类数据和不同类中每一个数据的距离(欧氏或马氏)。2.选出最小的前K数据个距离,这里用到选择排序法。3.对比这前K个距离,找出K个数据中包含最多的是那个类的数据,即为待分类数据所在的类。不通俗但严谨的规则是:给定一个位置特征向量x和一种距离测量方法,于是有:1.在N个训练向量外,不考虑类的标签来确定k邻近。在两类的情况下,k选为奇数,一般不是类M的倍数。2.在K个样本之外,确定属于wi,i=1,2,...M类的向量的个数ki,显然sum(ki)=k。3.x属于样本最大值ki的那一 阅读全文