Paper Reading: FT4cip: A new functional tree for classification in class imbalance problems
Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。
论文概况 | 详细 |
---|---|
标题 | 《FT4cip: A new functional tree for classification in class imbalance problems》 |
作者 | Leonardo Cañete-Sifuentes, Raúl Monroy, Miguel Angel Medina-Pérez |
发表期刊 | Knowledge-based systems |
发表年份 | 2022 |
期刊等级 | 中科院 SCI 期刊分区(2022年12月最新升级版)1 区,CCF-C |
论文代码 | https://sites.google.com/view/leocanetesifuentes/software |
作者单位:
- Tecnologico de Monterrey, School of Engineering and Science, Atizapán de Zaragoza, Estado de México 52926, Mexico
- Altair Management Consultants, Calle de José Ortega y Gasset 22-24, 5th floor, 28006 Madrid, Spain
研究动机#
决策树(DT)是一种高可解释性、分类性能好、计算速度快的分类器,最常用的 DT 类型是单变量决策树(UDT)。提高 UDT 分类性能的一种方法是允许 DT 在分割节点的条件下使用多个特征,这种方法有三种类型的树:多元决策树(MDTs)、模型树(MTs)、功能树(FTs),但许多算法在处理多类和类不平衡问题时存在缺点。
文章贡献#
本文提出了一种类不平衡问题的功能树(FT4cip),该模型使用了考虑类不平衡的分割评估函数 Twoing,以及使用了一种优化 AUC 的新型剪枝算法。同时对多变量分割使用特征选择,进一步提高分类性能和可解释性。通过大量的实验分析证明,FT4cip 在 AUC 上的分类性能优于 LMT 和 Gama。接着对几种算法进行元分析,显示了 FT4cip 比 LMT 和 Gama 具有更好性能的问题类型。最后根据对分类性能的影响对算法的不同进行排序,证明所采取的设计决策是合理的。
预备知识#
UDT 每次使用一个特征来递归地划分对象,从而在特征空间中产生与轴平行的超平面。但是当来自不同类的对象可能被单个非轴平行分割时,UDT 会进行次优分割。下图显示了 MDT(MHLDT)、MT(LMT)和 FT(Gama) 用于分类 iris 的示例。MDT 允许在非叶节点中合并多个特性进行划分,MT 通过在每个叶子中使用分类器(例如逻辑回归)来决定落在叶结点中样本的类别,从而实现叶子节点中的特征组合。FT 是 MDT 和 MT 的综合版本,它允许在非叶节点和叶节点中进行特征组合。
本文方法#
算法流程和符号定义#
符号 | 含义 |
---|---|
D | 数据集,为一个大小为 n×m+1 的数组 |
n | 数据集中样本的个数 |
m | 数据集中特征的数量 |
F | 数据集中的特征集合 |
Nt | 节点 t |
Dt | 节点 Nt 上的对象 |
S | 一个候选的分裂 |
Sf | 根据单个特征 f∈F 产生的分裂 |
SF' | 根据特征集 F′∈F 产生的分裂 |
split(Dt, F', eval) | 使用 F' 中的特征对 Dt 中的对象进行分裂,使用 eval 函数在候选拆分之间进行选择,返回一个分裂 St |
eval(Dt, S) | 评估函数,对节点 Nt 拆分后的 S 评估 |
partition(Dt, S) | 生成左右子节点 Nl, Nr,根据 S 将 Dt 中的对象子集进行分配 |
SFS(D, F', Nt, eval, split) | 顺序前向选择算法 |
结点分裂#
结点分裂的方法使用了多类别 Fisher 线性判别(MFLD)和顺序前向选择(SFS),先使用 SFS 选择特征子集,然后使用 MFLD 生成线性候选分裂。
和其他算法的区别在于,LMT 只使用单变量分裂,Gama 使用多变量分裂,本文的 FT4cip 使用单变量拆分或具有少量特征的多变量拆分。
分裂评估函数#
分裂的评估函数用于在 Nt 对分割 S 进行评估,本文选择能考虑类别的不平衡的 Twoing 函数。Twoing 函数的定义如下:
函数的中符号及其含义如下表所示:
符号 | 含义 |
---|---|
C | 类别 |
pL | 样本落在左节点的样本比例 |
pR | 样本落在右节点的样本比例 |
pc,L | 落在左节点的 c∈C 类样本的比例 |
pc,R | 落在右节点的 c∈C 类样本的比例 |
最大化 Twoing 函数在本质上就是对 |pc,L−pc,R| 进行最大化,可以使分配给每个子节点的样本数量相似。对于每个类,无论每个类有多少个样本,|pc,L−pc,R| 的取值范围都是相同的 [0,1],这使得 Twoing 对类不平衡具有鲁棒性。
和其他算法的区别在于,LMT 和 Gama 使用信息增益作为一个分裂的评估函数。
终止条件#
由于终止条件对分类性能没有显著影响,因此使用较为简单的策略,即只有当节点是纯节点时停止分裂。和其他算法的区别在于,LMT 和 Gama 的终止条件设置的很复杂。
叶结点分类器#
叶结点使用逻辑回归给样本分配标签,使用 LogitBoost 算法为根节点构建逻辑回归模型,子节点仅使用节点中的样本运行 LogitBoost 的增量迭代来完善父节点的逻辑模型。叶结点分类器和 LMT 的设置一样。
剪枝#
使用优化 AUC 的 CostComplexity 对模型进行剪枝,成本复杂性需要优化一个描述树的大小和错误分类率 α 之间权衡的参数。本文的实现方法是在训练集中使用五折交叉验证,通过最小化平均错分率来选择 α 值。
标称特性#
对于标称特征生成分裂的问题,本文使用值和补码进行二进制拆分,与所选特征的值匹配的对象都将进入左节点,反之进入右节点。和其他算法的区别在于 LMT 使用多路分割,这样可能会生成多个子节点。
实验结果#
数据集和实验设置#
使用 110 个 UCI 数据集进行实验,数据集的详细信息如下表所示。
使用五折交叉验证作为验证方式,评价指标使用 AUC,使用贝叶斯有符号秩检验作为统计检验的方法。将数据集划分为五折时使用了分布最优平衡 SCV(DOB-SCV),该方法能在每折保持尽可能相似的数据分布。
对比算法是 LMT 和多种 MDT,进行元分析时根据类数量、特征数量、样本数量和不平衡度将数据集分为两组。根据下面的直方图展示的统计结果,使用 1000 个实例的值,20 个特征,类不平衡程度 2 作为数据集分组的分界点。
LMT 和 MDTs 的比较#
首先将最新的模型树 LMT 与多种 MDT 算法在 57 个数据集上进行比较,其中作者使用的 MDT 算法中只有 15 个算法可以处理所有数据集。贝叶斯符号秩检验结果如下表所示,因为 LMT 优于任何 MDT 的概率大于 0.81,并且任何 MDT 优于 LMT 的概率小于 0.05,所以得出 LMT 优于被比较的所有 MDT 算法的结论。
FT4cip 和 LMT、Gama 的比较#
由于 LMT 优于所有 MDTs,因此只需要将 FT4cip 与 LMT、Gama 比较即可。下图展示了 110 个数据库中 FT4cip、Gama、LMT 的 AUC 分布,可见 FT4cip 在中位 AUC 具有最好的分类性能。
下图展示了 FT4cip 与 LMT 的贝叶斯有符号秩检验比较结果,可以以 0.977 的概率得出结论 FT4cip实际上比LMT更好,LMT 优于 FT4cip 的概率小于0.001。
下图展示了 FT4cip 与 Gama 的贝叶斯有符号秩检验比较结果,FT4cip 在 27.7% 的情况喜爱优于 Gama,在其余 72.3% 的情况与 Gama 相当。
分类性能元分析#
下图展示了分类器在二分类、多分类数据集的性能,可见 Gama 或 LMT 优于 FT4cip 的概率小于 0.001,FT4cip 优于其他方法的最低概率为 0.192,FT4cip 在二分类和多分类数据集上都优于 LMT 和 Gama。
下图展示了分类器在少于 20 个、多于 20 个特征的数据集中的性能,Gama 或 LMT 优于 FT4cip 的概率都小于 0.001。FT4cip 在多于 20 个特征时优于 LMT 和 Gama,在少于 20 个特征时 FT4cip 相当于 Gama 且优于 LMT。
下图展示了分类器在少于 1000 个、多于 1000 个样本的数据集中的性能,Gama 或 LMT 优于 FT4cip 的概率都小于 0.001。FT4cip 在多于 1000 个样本时优于 LMT 和 Gama,少于 1000 个样本时 FT4cip 与 Gama 相当且优于 LMT。
下图展示了分类器在不同不平衡比的数据集中的性能,Gama 或 LMT 优于 FT4cip 的概率都小于 0.001。当存在低类不平衡时 FT4cip 等效于 LMT 和 Gama,当存在高类不均衡时 FT4cip 优于 LMT 和 Gama。
下表展示了元分析的汇总结果,可见 FT4cip 优于或等效于 LMT 和 Gama。
消融实验#
删除 FT4cip 中的各个组件得到 FT4cip 的变体,然后对修改版本进行排名,通过它们在排名中的下降程度来评估每个组件的重要性。下图为这些变体的排名,和 baseline 上优于它们的概率。根据结果可知从最重要到最不重要的依次为:使用适当的修剪方法、使用逻辑回归模型、使用线性多元分裂、使用适当的分裂评估度量、使用简单的停止条件、对标称特征使用二元分裂。
训练时间#
下面两张图分别展示了 FT4cip、LMT、Gama 的训练、测试时间分布,Gama 的训练时间最短,FT4cip 最耗时。FT4cip 的运行时间与使用更复杂的停止条件、使用多路分割和使用精度优化成本-复杂性修剪的变体之间几乎没有区别,剪枝是最耗时的步骤。
优点和创新点#
个人认为,本文有如下一些优点和创新点可供参考学习:
- 和传统的单变量模型不同,本文研究的 DT 使用多变量和分类器作为树的节点,具有更强的拟合能力;
- FT4cip 对决策树在多个方面都进行了优化,可以为后续对决策树本身的优化提供一些方向和思路;
- 实验数据丰富有力,在 110 个数据集上进行了实验,并从多个不同的方面对模型的性能进行分析。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2021-08-08 操作系统:连续分配存储管理方式
2020-08-08 数据结构:排序算法