KNN算法改进：泛化实例算法(Generalized Instance Set Algorithm,GIS)

泛化实例算法(GIS)

　　GIS算法认为：对于给定的一个category，positive实例中所蕴含的规则(regularity)比negative实例中所蕴含的规则更明显；从一组相似的positive实例中推知的模式或分类信息要更准确，而离这些positive实例比较接近的negative更可能是noise。根据这一思想，GIS算法试图构造出一个基于training集合的泛化实例集合(a set of generalized instances)，来代替原始的training集合。

　　GIS算法可以简单描述如下：首先随即选择一个当前category C的positive实例(设为G)作为代表实例，随后执行下面的操作：计算G的k个最近邻。令G' = G，根据最近邻信息评估实例G^'的代表能力Rep(G^')，同时对G进行泛化(Generalize)并重新计算泛化后G的代表能力Rep(G)。若泛化后的代表能力更强，则重复这种操作。否则将G^'加入到最终的泛化实例集合GS中，并将其k个最近邻从初始training集合T中删除。当训练集T中无category C的positive实例时，算法停止。GIS算法的详细描述如下：