摘要:
为了解决基于现有多样性度量的学习复杂性较高的问题,本文提出了一种新的数据级多样性度量 IED。它能够直接基于训练数据集度量多样性,而不需要训练分类器,同时本文也设计了两种基于最优实例配对和贪婪实例配对的 IED 计算方法。在此基础上,本文设计了一种不平衡集成学习模型 P-EUSBagging,它使用基于种群的增量学习(PBIL)来生成子数据集,再用这些数据集用于训练具有最大数据级多样性的基分类器。P-EUSBagging 采用 Bagging 来集成,并设计了一种新的权重自适应投票策略,奖励给出正确预测的基本分类器。实验使用 44 个不平衡数据集,实验结果表明 IED 可以显著减少训练集成学习模型所需的时间,PEUSBagging 在 G-Mean 和 AUC 上都显著提高了学习性能。 阅读全文