Paper Reading: Combined Cleaning and Resampling algorithm for multi-class imbalanced data with label noise

研究动机
文章贡献
MC-CCR 多类联合清洗和重采样算法
- 二分类组合清洗和重采样
- 多分类联合清洗和重采样
实验结果
优点和创新点

Paper Reading 是从个人角度进行的一些总结分享，受到个人关注点的侧重和实力所限，可能有理解不到位的地方。具体的细节还需要以原文的内容为准，博客中的图表若未另外说明则均来自原文。

论文概况	详细
标题	《Combined Cleaning and Resampling algorithm for multi-class imbalanced data with label noise》
作者	Michał Koziarski, Michał Woźniak, Bartosz Krawczyk
发表期刊	Knowledge-based systems
发表年份	2020
期刊等级	中科院 SCI 期刊分区(2022年12月最新升级版）1 区，CCF-C
论文代码	https://github.com/michalkoziarski/MC-CCR.

作者单位：

Department of Electronics, AGH University of Science and Technology, Al. Mickiewicza 30, 30-059 Kraków, Poland
Department of Systems and Computer Networks, Wrocław University of Science and Technology, Wybrzeże Wyspiańskiego 27, 50-370 Wrocław, Poland
Department of Computer Science, School of Engineering, Virginia Commonwealth University, 401 West Main Street, P.O. Box 843019, Richmond, VA 23284-3019, USA

研究动机#

数据不平衡的会严重影响机器学习算法的性能，当前大部分研究工作都是基于二分类问题展开的，其唯一目标是降低不平衡的程度。有研究指出，在学习过程中构成挑战的并不是数据不平衡本身，而是被数据不平衡放大的其他数据难度因素，包括：样本量小、存在不相交和重叠的数据分布、存在异常值和噪声样本。此外多分类数据的不平衡问题没有得到重视，在多类任务的情况下不平衡问题肯定更为复杂，已提出的二分类器不能很好地适应多类任务。许多研究工作侧重于将多分类分解为二分类，然而对于多类不平衡分类问题的会导致信息丢失。

文章贡献#

针对现有工作在多分类不平衡问题的不足，本文提出了一种新的多分类联合清洗和重采样算法 MC-CCR。MC-CCR 主要使用了分解策略的思想，利用基于能量的方法对适合过采样的区域进行挖掘。与 SMOTE 相比，该方法受离群点和异常值的影响较小。接着将其与清理操作相结合，减少了重叠类分布对学习算法性能的影响。最后提出了一种迭代策略将二分类的场景扩展到多分类，MC-CCR 比经典的多分类分解策略受类间关系信息丢失的影响更小。通过多个多类不平衡基准数据集的实验研究结果表明，该方法对噪声具有较高的鲁棒性，并且与现有方法相比具有较高的性能。

MC-CCR 多类联合清洗和重采样算法#

二分类组合清洗和重采样#

CCR 算法基于两个经验性的结论：

数据不平衡本身并不会对分类性能产生负面影响，只有存在其他数据困难因素，如类别的重叠等，才会给模型带来困难。
当考虑数据不平衡的指标来优化分类性能时，牺牲一些精度来实现更好的 recall 通常是有益的，可能比典型的过采样或欠采样算法更显著。

在进行采样之前，需要先清理位于少数类实例附近的多数类样本进行预处理。该步骤目的是减少类重叠的问题，并使分类器的预测偏向少数类。本文提出了一种基于能量的方法，在每个少数类样本周围构建球形区域。球体使用能量（算法的一个参数）进行扩展，在扩展过程中遇到的每个多数类样本的成本都会增加。对于一个给定的少数类样本 x_i，关联球体的当前半径用 r_i 表示。以 x_i 为中心，半径为 r 的球体内的多数类样本的数量为 f_n(r)。目标半径用 r'_i 表示，f_n(r'_i)=f_n(r_i)+1，定义由 r_i 到 r'_i 的扩展引起的能量变化为：

在球体膨胀过程中，给定球体的半径增加到能量完全耗尽的点，每次遇到多数类样本后代价增加。最后球体内部的大部分观测都被推到了它的外围，整个过程如下图所示。由于每次遇到多数类样本后的扩展成本增加，它可以区分可能被错误标记的实例。同时在类分布重叠的情况下，尽管单个球体的尺寸很小，但它们的大体积仍然导致较大的清洗区域。由于球体内部的大部分观测值都是平移而不是完全去除，因此在很大程度上保留了与它们原始位置相关的信息，限制了特定区域类密度的失真。

接着合成新的少数类样本，通过先前设计的清洗区域内进行过采样。这样不仅可以防止合成样本与多数类样本的分布重叠，还可以避免对新样本的错误标记。此外还通过加权的方式对过采样的少数类样本进行选择，将重点放在困难的样本上。主要通过相关球体的半径来挖掘困难样本，定义在一个少数类样本 x_i 周围生成的合成样本的数量为如下公式。

其中多数类样本的集合用 X_maj 表示，少数类样本的集合用 X_min 表示。这样不仅能减少类不平衡带来的偏差，还能自适应地将分类决策边界向困难的样例移动。该步骤的整体流程如下伪代码所示：

下图展示了二分类情况下的样例，所提出的方法有 3 个阶段：在少数类样本周围形成球体，清理球体内的多数类样本，以及基于球体半径的自适应过采样。

多分类联合清洗和重采样#

本文将 CCR 算法通过一种迭代分解的策略扩展到多分类，该策略主要是使用已经处理过的类的样本集合依次对单个类进行重新采样。包括以下步骤：

根据样本的数量按降序对类进行排序；
对于每个少数类，构建了一个由来自每个已考虑的类别的随机抽样的样本组成；
使用 CCR 算法进行处理，将当前考虑的类的样本作为少数类，将多数类样本集合整体作为多数类；
生成的合成少数派类样本被合并到原始数据中，这些合成样本可用于为后面的类构建组合多数类的集合。

该方法的整体流程如下伪代码所示。CCR 相比于 OVA 策略相比，该算法具有两个优点。第一是多数类样本的集合通常小于所有样本的集合，计算开销相对较小。第二是在 OVA 分解中具有较多样本的类可以支配其余的类，CCR 方法为组合多数类样本集合中的每个类分配相同的权重。

所提出的 MC-CCR 算法和几种基于 SMOTE 的方法的比较如下图所示，可见 S-SMOTE 容易受到标签噪声和不相交数据分布的影响，从而产生与多数类分布重叠的合成少数类样本。 Borderline S-SMOTE 虽然对个别错误标记的样本不太敏感，但受不相交数据分布的影响更大。用 ENN 进行后处理可以缓解异常值的问题，但同时排除了代表性不足的区域。MC-CCR 通过约束样本周围的过采样区域，减少了标签错误样本的负面影响，同时也没有忽略未被多数类样本包围的异常值。

实验结果#

数据集和实验设置#

实验使用来自 KEEL 的 20 个多分类不平衡数据集，数据集的基本信息如下表所示。实验使用十折交叉验证进行评估，重复 10 次实验取平均值，对训练数据进行三折交叉验证进行参数选择，然后使用 Friedman 检验和 Shaffer 分析。

本文方法主要和多分类过采样算法比较，对比算法包括基于循环分解策略的 SMOTE(SMOTE-all)、静态 SMOTE(S-SMOTE)、Mahalanobis 距离过采样(MBO)、基于 KNN 的 SMOTE(SMOM) 以及迭代划分滤波器 SMOTE(SMOTEIPF)。通过过采样处理后，使用 DT、MLP、KNN 和 Bayes 分类器进行分类，设计的算法和分类器设置如下表所示。

消融实验#

此处验证 MC-CCR 中三个组件的有效性，第一个是 MC-CCR 的清理策略为平移 T，实验时设置了完全移除位于球体内部的样本的移除策略 R，以及不进行任何清理并忽略多数类样本的忽略策略 I。第二个 MC-CCR 的样本选择的概率与球体半径成比例 P，实验时设置了样本随机选择的 Random 策略 R。第三是本文对于多分类分解时，使用了只对样本量较多的类按比例进行抽样的 sampling 策略 S，实验设置了将所有剩余类别的所有样本组合在一起的 Complete 策略 C。实验结果如下表所示，可见 MC-CCR 使用的模块的平均性能最佳。

对比实验#

此处将 MC-CCR 算法与其他过采样算法进行比较，结果如下表所示，可见本文提出的算法的性能更优。

类别标签噪声的影响#

最后对标签噪声对 MC-CCR 的预测性能的影响进行评估，策略是选择训练样本的一个子集，将其标签替换为随机选择的其他标签，噪声水平包括 {0.0, 0.05, 0.1, 0.15, 0.20, 0.25}。实验结果如下图所示，可见对于大多数数据集，随着噪声水平的增加性能体现出明显恶化的趋势，MC-CCR 通常具有更好的预测性能。