Paper Reading: Dynamic ensemble selection for multi-class imbalanced datasets
Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。
论文概况 | 详细 |
---|---|
标题 | 《Dynamic ensemble selection for multi-class imbalanced datasets》 |
作者 | Salvador Garcíaa, Zhong-Liang Zhang, Abdulrahman Altalhi, Saleh Alshomrani Francisco Herreraa |
发表期刊 | Information Sciences |
发表年份 | 2018 |
期刊等级 | 中科院 SCI 期刊分区(2022年12月最新升级版)1区、CCF-B |
论文代码 | 文中未公开 |
作者单位:
- Department of Computer Science and Artificial Intelligence, University of Granada, Granada 18071, Spain
- School of Management, Hangzhou Dianzi University, Hangzhou 310018, China
- Faculty of Computing and Information Technology, King Abdulaziz University, Jeddah 21589, Saudi Arabia
- Faculty of Computing and Information Technology, University of Jeddah, Jeddah 21589, Saudi Arabia
研究动机#
类不平衡学习是机器学习领域的重要问题,目前已经提出了很多方法,例如:重采样、代价敏感学习、不平衡集成学习算法、基于核的方法和主动学习方法。但是目前大多数研究都集中在两分类不平衡数据集上,显然多类不平衡学习问题比更加复杂,将处理二分类不平衡问题的方法直接应用于多类问题可能是无效的。多分类不平衡学习的需要处理的关系包括:一个多数类和许多少数类、一个少数类和许多多数类、以及许多少数类和许多多数类。
文章贡献#
本文针对多分类不平衡学习问题设计了一种基于动态集成选择的方法 DES-MI,主要思想是针对不同的样本选择不同的分类器进行集成。首先利用随机平衡框架构造一组平衡数据集训练多个基分类器作为候选池,该重采样框架混合使用了随机欠采样、随机过采样和 SMOTE。然后通过使用样本周围的实例进行加权来评估候选分类器的能力,分类器的预测性能越高,则它在局部区域内的少数类别分类能力越强。最后根据每个选定的分类器的预测结果进行多数类投票,得票最多的类被视为最终输出类。通过 KEEL 库中的 20 个多类不平衡数据集的实验,分析了动态选择在多分类不平衡数据集场景下的有效性,结果表明 DES-MI 能够提高多分类不平衡数据集的分类性能。
本文方法#
动态集成选择#
由一组基分类器组成的多分类器系统 MCS 的构建可分为三个阶段:生成基分类器池、选择单个分类器或分类器子集、整合所选分类器。集成选择阶段可以是静态的或动态的,例如 RF 和 GBDT 属于静态集成选择,这类方法在训练阶段根据选择标准进行集成。因为对不同的样本进行分类时,不同的分类器通常具有不同的分类功能。所以动态集成选择 DES 则是针对一个特定的样本 xt,从分类器池 C 中找到一个分类器集合 C'∈C 对其进行预测。
在多类不平衡数据集中,不同分类难度的不同区域的特点不同,因此本文假设使用 DES 处理多分类不平衡问题将获得更好的性能。本文提出了一种基于动态集成选择的多类不平衡学习方法 DES-MI,该方法由以下两个部分组成:
- 候选分类器的生成:提出一种随机平衡的预处理方法,用于构造类别平衡的数据集。在不同的训练数据集上,通过训练不同的分类算法来获得候选分类器之间的差异性。
- 动态集成选择:设计了一种新的加权方法来突出候选分类器在预测少数类样本的能力,在评估候选分类器池中分类器的能力水平时,属于样本邻域中少数类的样本具有更大的权重。
候选分类器的生成#
针对多类不平衡数据集的特点,提出了一种基于混合采样的预处理方法。这种方法的目的是生成足够多样化的训练数据集,得到的候选分类器之间就可以获得足够的多样性。预处理的过程样例如下图所示,每个基分类器将获得一个不同大小的平衡数据集。
该方法的伪代码如下所示,给定一个包含 n 个样本的初始数据集 D={xi, yi}ni=1,xi 是一个样本的特征向量,yi∈{ω1,ω2,…,ωm} 为 xi 的类别标签。实现这种混合采样的方式是随机设置每个类的大小,如果类别的数量大于这个随机整数,则使用不替换的随机欠采样来减小当前类的大小,否则使用 SMOTE 来增加当前类的大小。使用生成的平衡数据集训练基学习器。
采用加权机制进行动态选择#
动态选择的目的是从候选分类器中为每个样本 xt 选择最合适的集成策略,其关键在于评估候选分类器的能力。本文的方法根据样本 xt 的邻域内具有相同类别的样本的比例进行加权,也就是给正确分类更多少数类样本的候选分类器提供更大的权重。该方法的伪代码如下所示,其关键在于评估候选分类器在每个需要分类的样本的领域中的性能。根据一个样本周围的 k 个最近邻样本计算每个分类器的能力,分类器在少数类预测的能力越强则权重越高,最后根据多数投票规则对所选分类器进行组合。
复杂度分析#
设 m 为类别的数量,n 为数据集的大小,T 为基学习器的数量。在数据预处理阶段需要对训练数据集使用基于随机数值的重采样,时间复杂度为 O(m)。然后利用 SMOTE 过程平衡数据分布,其中计算每个少数类任意两个样本的欧氏距离的时间复杂度为 O(f·n2i),对欧氏距离进行升序排序的时间复杂度为 O(nilog(ni)),其中 f 为特征空间的维数,ni 为类标签为 ωi 的少数类的样本个数。由于需要生成 T 个基分类器,并且 ni 明显小于 n,因此可以简单地将算法 1 的时间复杂度简化为 O(T·f·n2)。
在动态选择过程中,需要计算样本的最近邻关系,计算欧几里得距离的时间复杂度为 O(f·nva),其中 nva 为验证数据集中的样例个数。对当前所有欧氏距离计算按升序排序的时间复杂度为 O(nvalognva)。找到 k 个最近邻的步骤的复杂度为 O(k),f 和 k都明显小于 nva。使用初始数据集作为验证数据集,这将算法 2 的时间复杂度简化为 O(nlogn)。
综上所述,本文提出的 DES-MI 的时间复杂度为 O(nlog n+T·f·n2)。
实验结果#
数据集和实验设置#
数据集选择了 KEEL 知识库的 20 个多类不平衡数据集,这些数据集的基本信息如下表所示。
评估指标方面选择 MAvA 和 MFM,并使用假设检验对结果进行分析。MAvA 独立地求得每一类的准确率,然后由平均值得到最终结果。
多分类问题的 F1 指标 MFM 定义如下:
DES-MI 的设置方面,使用 CART 作为基分类器,候选分类器由 100 个经过剪枝的决策树组成,在动态选择阶段,待选择分类器的百分比设置为 40%。参数 k 设置为 10·m,使用的缩放系数 α 设置为 0.9,通过交叉验证进行选择。对于选择进行比较的方法,使用与文献中相同的参数设置。
DES-MI 中最近邻数目的影响#
此处的实验用于分析设置不同的 k 对 DES-MI 性能的影响,MAvA 和 MFM 的结果如下表所示。从实验结果可以看出当 k=9 时,DES-MI 的性能优于其他值。
对比实验#
首先将 DES-MI 与基准方法进行比较,包括:初始基础学习器、SMOTE、单个分类器的动态选择、所有候选分类器的组合。实验结果如下表所示,可见 DES-MI 在两个性能指标中都优于其他比较方法。
接着将 DES-MI 与 OVO-Easy、OVA-NBSVM、AdaBoost.NC 和 Static-SMOTE 进行比较,结果如下表所示,可见 DES-MI 的性能优于其他的对比方法。
优点和创新点#
个人认为,本文有如下一些优点和创新点可供参考学习:
- 和多数只关注二分类不平衡的研究不同,本文关注了多分类不平衡问题,并使用动态集成选择的方法设计了一种集成学习模型;
- 对于基分类器的权重,本文的方法是针对一个样本计算其邻域不同类别的样本比例,是一种较为灵活的思路。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步