机器学习:不平衡信息有序平均加权最近邻算法IFROWANN
一 背景介绍
不平衡信息,特点是少数信息更珍贵,多数信息没有代表性。所以一般的分类算法会被多数信息影响,而忽略少数信息的重要性。
解决策略:
1.数据级别
(1)上采样:增加稀有类成本数
(2)下采样:减少大类样本数
(3)混合方法:结合(1)(2)
2.算法算法级别
(1)代价敏感学习方法:对正类错分赋予更高的代价,从而迫使分类器对正类有更高的识别率。
(2)分类器集成方法:首先数据级技术处理数据分布,然后选择算法级算法进行分类。
但这些策略都有各自的缺点,比如:上采用会导致过度学习,下采样会损失重要信息,代价敏感方法会使真实的代价很难被准确估计并且很多分类器只是简单的调整正负比 例或决策阈值,效果不好(但支持向量机和决策树可以直接引入)
二 不平衡信息分类问题
不平衡率
FRNN:通过计算每个类的上、下模糊粗糙近似度,为每个实例赋sum值。
IFROWANN:相对于大量信息,更加注重少量信息;通过OWA模糊粗糙集模型聚合样本的贡献。
三FRNN
模糊集:注重描述信息的含糊程度。
粗糙集:强调数据的不可辨别、不确定和模棱两可。
FRNN算法:
通过引入类模糊隶属度来处理类交叠和噪声存在的情况。
1.采用模糊分类,得到待分类样本x的k个近邻;
2.根据距离,对它们的决策作用加权。
核心是计算模糊粗糙隶属度。
四 IFROWANN算法
有序加权平均OWA:
(1)属性值按从小到大的顺序排序
(2)加权聚合
权重向量的选择:
例子:
五 总结
小结
IFROWANN对不平衡信息分类问题,不仅优于传统的FRNN算法,而且包括算法级别,代价敏感和集成方法中的最优算法。
待改善的地方:
1.结合数据级别技术,形成一个具有更好分类性能的集成方法;
2.使用包装方法或根据数据自身特性(不平衡率或数据复杂性特性),自动提取OWA的权重向量和训练集的不可辨别关系。
多类处理技术:
1.多类问题转化为两类问题处理,未来可以结合OVO + IFROWANN算法设计一个新的技术。
2.修改IFROWANN算法直接处理多类问题。