07 2023 档案

摘要:受人类学习过程的启发,本文根据学习速度设计了样本难度模型,并提出了一种新的实例级再平衡策略。具体来说模型在每个训练周期记录每个实例的预测,并根据预测的变化来测量该样本的难度难度。然后对困难实例赋予更高的权重,对数据进行重新采样。本文从理论上证明了提出的重采样策略的正确性和收敛性,并进行一些实证实验来展示本文算法的能力。 阅读全文
posted @ 2023-07-24 00:35 乌漆WhiteMoon 阅读(751) 评论(0) 推荐(1) 编辑
摘要:本文是不平衡分类问题的经典论文,文中提出了 2 种不平衡集成学习模型都是简单而有效的 baseline 方法。 EasyEnsemble 方法直接对多数类样本进行采样得到几个子集,并使用这些子集分别训练基分类器。BalanceCascade 是使用训练好的分类器来指导后续分类器的采样过程,即在上一个分类器被分类正确的样本将在下一个分类器中移除。两种方法在 16 个 UCI 数据集上的实验表明,与许多现有的类失衡学习方法相比,这两种方法在各个指标上都具有更高的性能。 阅读全文
posted @ 2023-07-22 22:05 乌漆WhiteMoon 阅读(202) 评论(0) 推荐(0) 编辑
摘要:目前很多方法都不能很好地处理高度不平衡、大规模和有噪声的分类任务,主要原因是它们忽视了不平衡学习所隐含的困难。本文引入“分类硬度”的概念来刻画不平衡问题的困难所在,该概念表示为特定分类器正确分类样本的难度。基于这个概念,本文提出了一种新的学习框架——自定步速集成(self-pace Ensemble,SPE)。SPE 通过考虑分类硬度在数据集上的分布,根据硬度分布迭代选择信息量最大的多数数据样本,欠采样策略由自定节奏程序控制。这种过程使 SPE 框架逐渐集中在较难的数据样本上,同时仍然保留容易样本分布的知识,以防止过拟合。 通过大量的实验表明,与现有方法相比,SPE 具有准确、快速、鲁棒性好、适应性强等优点。 阅读全文
posted @ 2023-07-13 20:00 乌漆WhiteMoon 阅读(20961) 评论(0) 推荐(0) 编辑
摘要:大多数处理不平衡学习的技术都是针对二分类问题提出的,这些方法并不一定适用于不平衡的多分类任务。针对这些问题,本文提出了一种新的自适应方法——基于多目标遗传抽样的分类器集成(E-MOSAIC)。E-MOSAIC 将训练数据集中提取的样本编码为个体进行进化,通过多目标优化过程搜索能够在所有类别中产生具有高预测精度的分类器的实例的最佳组合。E-MOSAIC 还兼顾了分类器的多样性,这些分类器被组合成一个专门为不平衡学习设计的集成。本文在 20 个不平衡多类数据集进行了实验,和包括基于采样、主动学习、成本敏感和 Boosting 的方法进行对比,实验结果表明该方法对多类精度指标 mAUC 和 G-mean 的预测性能更优。 阅读全文
posted @ 2023-07-09 20:04 乌漆WhiteMoon 阅读(124) 评论(0) 推荐(0) 编辑
摘要:针对 SMOTE 的缺点,本文提出了一种基于建设性覆盖算法(CCA)的三向决策抽样方法(CTD)。CTD 首先使用 CCA 构造不平衡数据的覆盖,然后选择少数样本的覆盖并根据覆盖的密度划分为三个区域。最后根据覆盖分布规律得到相应的阈值 α 和 β,选择关键样本进行SMOTE过采样。考虑到 CCA 随机选择覆盖中心所带来的不确定性,本文进一步提出了一种基于 CTD 的集成模型 CTDE 提高算法的效率。通过在多个不平衡数据集上的实验表明,该方法优于对比方法,通过构建基于关键样本选择的三向决策集成也使模型的性能得到了有效提高。 阅读全文
posted @ 2023-07-06 16:25 乌漆WhiteMoon 阅读(148) 评论(0) 推荐(0) 编辑
摘要:针对不平衡数据问题,本文提出了一种基于模型的综合抽样(MBS)方法,从一个新的角度对少数类实例进行过采样。MBS 是一种过采样算法,目标是生成能够捕捉少数类训练样本特征之间关系的合成样本,同时保持数据样本的可变性。首先利用回归模型捕获少数类样本的特征趋势,接着通过对可用特征值进行采样生成临时数据样本,最后通过构建的模型将临时数据样本转换为合成数据。实验将 MBS 与几种方法进行了比较,实验结果表明,所提出的方法具有较好的效果和较高的稳定性。 阅读全文
posted @ 2023-07-04 22:55 乌漆WhiteMoon 阅读(127) 评论(0) 推荐(0) 编辑
摘要:对于不平衡的二分类问题,大多数现有的方法只关注采样、成本敏感学习、集成学习中的其中一种。本文提出了 DDAE 模型来解决不平衡二分类问题的限制,它集成了采样、数据空间构建、代价敏感学习和集成学习的方法。具体来说,DDAE 由四个主要部分组成:数据块构建、数据空间改进、自适应权值调整、集成学习。本文基于 14 个公共数据集进行了实验,结果表明 DDAE 模型在 Recall、G-mean、F-measure 和 AUC 方面都优于目前的方法。 阅读全文
posted @ 2023-07-02 23:41 乌漆WhiteMoon 阅读(178) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示