Paper Reading: Multi-class imbalance problem: A multi-objective solution

研究动机
文章贡献
本文方法
理论分析
实验结果
优点和创新点

Paper Reading 是从个人角度进行的一些总结分享，受到个人关注点的侧重和实力所限，可能有理解不到位的地方。具体的细节还需要以原文的内容为准，博客中的图表若未另外说明则均来自原文。

论文概况	详细
标题	《Multi-class imbalance problem: A multi-objective solution》
作者	Yi-Xiao He, Dan-Xuan Liu, Shen-Huan Lyu, Chao Qian, Zhi-Hua Zhou
发表期刊	Information Sciences
发表年份	2024
期刊等级	中科院 SCI 期刊分区(2022年12月最新升级版）1区、CCF-B
论文代码	文中未公开

作者单位：

National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing, 210023, China
School of Artificial Intelligence, Nanjing University, Nanjing, 210023, China
Key Laboratory of Water Big Data Technology of Ministry of Water Resources, Hohai University, Nanjing, 211100, China
College of Computer Science and Software Engineering, Hohai University, Nanjing, 211100, China

研究动机#

类不平衡是分类任务中经常遇到的问题，其中多分类不平衡问题更为复杂。在二元分类中只需要权衡一个小类和一个大类，而在多类不平衡问题中，就需要考虑在不同小类和不同大类之间的权衡。因此针对多类不平衡问题设计一个再平衡策略更具挑战性，而且当涉及到模型评估时，很难用一个总体性能分数来描述一个多类分类器。
除了多类分类比二元分类更复杂之外，另一个挑战是类的相对重要性往往是未知的。如果能够为决策者提供模型的所有可能的最佳权衡性能，将极大地帮助决策者在开放环境中做出决策。例如下图所示的例子，左图中的情况决策者可能会选择红色所示的分类器。如果是右图所示的的情况，决策者可能会选择蓝色所示的分类器，因为它在所有类上都取得了令人满意的性能。因此当无法提前确定每个类别的重要性时，就需要在类别之间获得多样化的最优权衡以供决策者选择。

文章贡献#

针对搜索 Pareto 前沿需要生成大量的解导致大量模型训练开销的问题，本文提出了多分类多目标选择集成 MMSE 框架。该框架在多目标建模中引入选择性集成，这样就不必重复训练整个模型，而是通过不同的基础学习器组合来获得不同的模型。训练单个学习器时使用了不同比例的欠采样数据集进行训练，提高了训练效率。同时由多个基学习器集成得到的模型可以覆盖更多的训练样本，避免了信息丢失的问题，在不同的类中具有更多样化的性能选择。当类的数量增加时，因为大多数生成的解是不可比较的，优化问题变得困难。本文进一步提出了一个基于边际的版本 MMSE_margin，它通过优化标签和实例边界来优化常见的性能度量，将目标数量减少到 3 个，同时仍然可以对常用的指标进行优化。

本文方法#

问题定义#

给定多分类预测器 f:R^d→R^𝑙，其中 f^d(j)(x) 表示实例 x 在 j 类上的预测概率，h(x)=argmax^𝑗f^d(j)(x) 表示预测的类。设 D 表示从分布 X×Y 上采样的数据集，其中 X=R^d 为特征空间，Y∈{1,2,…,l} 为标签空间。在本文中考虑评估过程的以下两种情况：

在帕累托前沿被确定后，决策者决定某一总体绩效指标，选择在该度量上具有最佳验证性能的解决方案，这种情况反映了决策者的偏好。
决策者可以选择帕累托前沿的的任何解决方案，这种情况可能是对类之间权衡的高级考虑，这很难显式地表示。

多分类多目标选择集成框架#

本文提出了一种可以同时处理这两种情况的多目标选择集成方法 MMSE，整体框架如下图所示。MMSE 在多目标优化中引入选择性集成来提高训练和存储效率，并采用不同比例的欠采样来生成不同的解。

为了明确地考虑不同类别之间的不同权衡，将每个类别的验证精度作为目标，并将多目标问题表示为如下公式。其中 V 表示验证集，V_i 表示属于第 i 类的样本子集。通常这种多目标优化问题的解决方案包含许多最优分类器，它们在不同的类别中具有不同的优势。

设 F_s 表示一个选择向量 s∈{0,1}ⁿ，其中 s_t=1 表示基本学习器f_t 在集成学习器中被选择。如果使用软投票来组合基学习器，则在一个样本 x 上的预测概率用如下公式表示，其中 |s|=∑ⁿ_t=1s_tfs_t(x)。

此时可以用 H_s(x) 表示预测的类，这样多目标优化问题就变成了对选择向量的搜索。

在生成基学习器时，首先用不同的欠采样比率，从训练集 T_r 构建多个欠采样子集。欠采样的缺点是信息丢失，它可以通过集成的方式来避免。使用每个子集来训练一个单独的分类器，并将所有分类器的预测结合起来进行最终的预测。通过在不同类别上设置不同的采样比例，得到的集成性能也会表现出更大的多样性。

多类样本的客观建模#

上文提到的方法被称为 MMSE_class，当数据集的类数量很多时，多目标问题变得难以优化。此处进一步提出一种基于边缘的目标建模方法 MMSE_margin。
样本 x_i 上的标签间隔定义为如下公式，其中 y 为样本 x_i 的真值标签。

对第 y 类的实例进行按标签划分的边距分组，如下公式所示。

标签上的实例化边距定义为如下公式。

在实践中使用所有对实例的最小裕度并不具有鲁棒性，因为噪声或困难的实例很容易导致 y^inst_y 的值无意义。因此将上一个公式修改为更健壮的均值版本，如下公式所示。

得到如下公式所示的 MMSE_margin 的目标向量。

MMSE 的伪代码如下所示，该流程适用于 MMSE_class 和 MMSE_margin，唯一的区别是目标 g，多目标优化算法采用 NSGA-II。

理论分析#

本文分析且证明了 MMSE_margin 可以在近似情况下优化常见的多分类性能指标，主要包括：

命题 1：如果数据集 D 上的所有标签边距都是正的，则 Average Accuracy、G-mean、macro-F1、micro-F1 都会得到优化。
命题 2：如果数据集 D 上的所有实例边际都是正的，则 macro-AUC 和 MAUC 就会被优化。

这两个命题的证明过程如下，比较好理解，主要就是将优化的目标代入这些指标的的计算公式中。

然后分析了 MMSE_margin 的近似性，确保 MMSE_margin 的两个目标可以优化，并具有有效的时间复杂度。y^label 和y^inst是两个既非单调又非子模的集合函数，文中在定义 1 中引入 𝜖-approximate 单调性，在定义 2 中引入 𝛽-approximate 子模块性来分别描述集合函数𝑔与单调性和子模块性的接近程度。

假设第一个非优势前沿的解不会被 NSGA-II 排除在种群之外，设 𝜖₁ 和 𝛽₁ 分别为 y^label 的近似单调性和近似子模块性参数，𝜖₂ 和 𝛽₂ 分别为 y^inst 的近似单调性和近似子模块性参数，如下命题 3 给出了在 y^label 和 y^inst 上MMSE_margin 的近似性。

对于命题 3 的完整证明证明过程比长，博客中不赘述，可以参考元我呢。主要流程是首先证明在近似单调性和近似子模性假设下，总能找到一个元素加入到具有一定改进的集成中。然后通过跟踪这种改进发生在总体中最优解上的概率，计算 NSGA-II 所需的期望迭代次数，以达到期望的近似保证。MMSE_margin 的多目标选择性集成过程可以获得 y^label 和 y^inst 的近似最优值，如果在所有实例和所有类上都优化了 y^label 和 y^inst ，则常见的多类性能度量就得到了优化。

实验结果#

数据集和实验设置#

对比算法选择了六种基于集成的多类不平衡学习方法，分别是：SMOTE、EasyEnsemble、BalancedRF、SMOTEBoost、MDEP、DEP。使用了 10 个多分类数据集进行实验，包括 7 个 LIBSVM 数据集、1 个 UCI 数据集和 2 个真实数据集，如下表所示。每个数据集随机划分 10 次训练集和测试集，训练时将训练集按照 3:1 分层抽样划分出验证集，最后计算平均的结果。

对比实验结果#

在每个度量下的验证集上选择最佳的集成方案，并在测试集上报告相应的结果。使用假设检验得到的结果如下图所示，可见本文的方法 MMSE_class 和 MMSE_margin 在几乎所有数据集的所有评价指标上都优于其他方法，并且在其他数据集上获得了非常有竞争力的结果。

在决策者可以选择帕累托前沿的任何解决方案的情境下，与 DEP、EasyEnsemble 和 SMOTEBoost 进行比较。下图展示了 acoustic 数据集上分类器对每个类别的验证精度。红色的解决方案在比较分类器中占主导地位，橙色的解决方案与被比较的分类器无法比较。可见这些解决方案非常多样化，表明本文的方法可以为决策者提供丰富的选择。

运行时间#

MMSE_class 和 MMSE_margin 方法的运行时间包括基学习器的训练、多目标进化优化以及对得到的解集在所有性能指标上的评价。比较方法的运行时间包括超参数调优和得到的单一模型在所有性能指标上的评估，结果如下图所示，可见 MMSE_class 和 MMSE_margin 高效地获得了多种极具竞争力的解决方案。

优化边界的有效性#

MMSE_margin 是为了减少目标数量而提出的一种新的目标建模方法，下图通过二维散点图和线性拟合线验证了 letter 数据集上逐标签边缘优化与 Average Accuracy、G-mean、macro-F1、micro-F1 之间的正相关关系，以及与 macro_auc 和 MAUC 之间的正相关关系。拟合线的斜率变化很大，但所有的斜率都是正的，表明正相关。