乌漆WhiteMoon - 博客园

2023年7月13日

Paper Reading: Self-paced Ensemble for Highly Imbalanced Massive Data Classification

摘要：目前很多方法都不能很好地处理高度不平衡、大规模和有噪声的分类任务，主要原因是它们忽视了不平衡学习所隐含的困难。本文引入“分类硬度”的概念来刻画不平衡问题的困难所在，该概念表示为特定分类器正确分类样本的难度。基于这个概念，本文提出了一种新的学习框架——自定步速集成(self-pace Ensemble，SPE)。SPE 通过考虑分类硬度在数据集上的分布，根据硬度分布迭代选择信息量最大的多数数据样本，欠采样策略由自定节奏程序控制。这种过程使 SPE 框架逐渐集中在较难的数据样本上，同时仍然保留容易样本分布的知识，以防止过拟合。通过大量的实验表明，与现有方法相比，SPE 具有准确、快速、鲁棒性好、适应性强等优点。阅读全文

posted @ 2023-07-13 20:00 乌漆WhiteMoon 阅读(20742) 评论(0) 推荐(0) 编辑

2023年7月9日

Paper Reading: Ensemble of Classifiers based on Multiobjective Genetic Sampling for Imbalanced Data

摘要：大多数处理不平衡学习的技术都是针对二分类问题提出的，这些方法并不一定适用于不平衡的多分类任务。针对这些问题，本文提出了一种新的自适应方法——基于多目标遗传抽样的分类器集成(E-MOSAIC)。E-MOSAIC 将训练数据集中提取的样本编码为个体进行进化，通过多目标优化过程搜索能够在所有类别中产生具有高预测精度的分类器的实例的最佳组合。E-MOSAIC 还兼顾了分类器的多样性，这些分类器被组合成一个专门为不平衡学习设计的集成。本文在 20 个不平衡多类数据集进行了实验，和包括基于采样、主动学习、成本敏感和 Boosting 的方法进行对比，实验结果表明该方法对多类精度指标 mAUC 和 G-mean 的预测性能更优。阅读全文

posted @ 2023-07-09 20:04 乌漆WhiteMoon 阅读(88) 评论(0) 推荐(0) 编辑

2023年7月6日

Paper Reading: A three-way decision ensemble method for imbalanced data oversampling

摘要：针对 SMOTE 的缺点，本文提出了一种基于建设性覆盖算法(CCA)的三向决策抽样方法(CTD)。CTD 首先使用 CCA 构造不平衡数据的覆盖，然后选择少数样本的覆盖并根据覆盖的密度划分为三个区域。最后根据覆盖分布规律得到相应的阈值 α 和 β，选择关键样本进行SMOTE过采样。考虑到 CCA 随机选择覆盖中心所带来的不确定性，本文进一步提出了一种基于 CTD 的集成模型 CTDE 提高算法的效率。通过在多个不平衡数据集上的实验表明，该方法优于对比方法，通过构建基于关键样本选择的三向决策集成也使模型的性能得到了有效提高。阅读全文

posted @ 2023-07-06 16:25 乌漆WhiteMoon 阅读(94) 评论(0) 推荐(0) 编辑

2023年7月4日

Paper Reading: Model-Based Synthetic Sampling for Imbalanced Data

摘要：针对不平衡数据问题，本文提出了一种基于模型的综合抽样(MBS)方法，从一个新的角度对少数类实例进行过采样。MBS 是一种过采样算法，目标是生成能够捕捉少数类训练样本特征之间关系的合成样本，同时保持数据样本的可变性。首先利用回归模型捕获少数类样本的特征趋势，接着通过对可用特征值进行采样生成临时数据样本，最后通过构建的模型将临时数据样本转换为合成数据。实验将 MBS 与几种方法进行了比较，实验结果表明，所提出的方法具有较好的效果和较高的稳定性。阅读全文

posted @ 2023-07-04 22:55 乌漆WhiteMoon 阅读(64) 评论(0) 推荐(0) 编辑

2023年7月2日

Paper Reading: A Novel Model for Imbalanced Data Classification

摘要：对于不平衡的二分类问题，大多数现有的方法只关注采样、成本敏感学习、集成学习中的其中一种。本文提出了 DDAE 模型来解决不平衡二分类问题的限制，它集成了采样、数据空间构建、代价敏感学习和集成学习的方法。具体来说，DDAE 由四个主要部分组成：数据块构建、数据空间改进、自适应权值调整、集成学习。本文基于 14 个公共数据集进行了实验，结果表明 DDAE 模型在 Recall、G-mean、F-measure 和 AUC 方面都优于目前的方法。阅读全文

posted @ 2023-07-02 23:41 乌漆WhiteMoon 阅读(137) 评论(0) 推荐(0) 编辑

2023年5月31日

Paper Reading: Gradient Boosted Neural Decision Forest

摘要：本文通过整合基于树的方法和神经网络，提出了一个梯度增强神经决策森林(GrNDF)模型。GrNDF 具有较高的高灵活性和可解释性，灵活性体现在通过将输入映射到嵌入层来灵活地处理不同类型或大小的特征。可解释性体现在可以通过神经决策树传递输入来解释，其中分裂节点显示输入数据到叶节点的概率，叶节点显示预测结果的不同概率分布。并通过概率神经决策树提供输入来解释，其中分裂节点显示传输到叶节点的输入的概率，而叶节点显示用于预测的不同概率分布。GrNDF 进行了调参实验和消融实验，并评估了模型在几个不同特点的数据集上的性能。与一系列 baseline 和现有的研究相比，本文模型具有较好的预测性能。阅读全文

posted @ 2023-05-31 00:57 乌漆WhiteMoon 阅读(68) 评论(0) 推荐(0) 编辑

2023年5月27日

Paper Reading: Adaptive Neural Trees

摘要：本文设计了自适应神经树(ANT)将 NN 和 DT 的优点结合起来，ANT 将树结构中的路由决策和根到叶的计算路径表示为 NN，从而实现了分层表示学习。ANT 以树形拓扑作为一个强结构先验，通过该结构令特征以分层方式共享和分离。同时提出了一种基于反向传播的训练算法，基于一系列决策来生长 ANT 的结构。总而言之，ANT同时具备了表示学习、架构学习、轻量级推理的能力。通过SARCOS、MNIST 和 CIFAR-10 数据集的实验，证明了本文方法具有较好的性能，具有多种良好的特性。阅读全文

posted @ 2023-05-27 21:21 乌漆WhiteMoon 阅读(182) 评论(0) 推荐(0) 编辑

2023年5月23日

Paper Reading: forgeNet a graph deep neural network model using tree-based ensemble classifiers for feature graph construction

摘要：为了解决样本数量远少于特征数量的“n << p”问题，并设计一个不依赖外部知识的分类模型，本文提出了一个森林图嵌入深度前馈网络(forgeNet)模型。该模型将 GEDFN 架构与森林特征图提取器集成在一起，从而可以以监督的方式学习特征图并为给定的任务构建特征图。为了验证该方法的能力，本文用合成数据集和真实数据集对 forgeNet 模型进行了实验。实验结果表明本文的模型具有较高的精度和鲁棒性，提供的特征重要性排名具有生物学上的意义。阅读全文

posted @ 2023-05-23 20:54 乌漆WhiteMoon 阅读(97) 评论(0) 推荐(0) 编辑

2023年3月28日

Paper Reading: PS-Tree A piecewise symbolic regression tree

摘要：综合 CART 和 GP 方法的优点，本文提出了一种新的回归方法——分段符号回归树(PS-Tree)。基本思想是通过CART将特征空间划分为若干个子区域，然后使用 GP 和岭回归为每个子区域构建一个简单的回归模型。在模型训练算法方面，使用分类树动态学习每个分区的最合适的数据分配方案，并进化出一组 GP 个体来表达非线性特征，在所有区域构建局部岭回归模型。GP 的特征构建被转化为一个多目标优化问题，从而获得了用于所有子区域的一组重要的特征。由于初始空间分区可能不正确，因此算法还部署了一种动态调整分区方案的自适应方法。阅读全文

posted @ 2023-03-28 16:24 乌漆WhiteMoon 阅读(242) 评论(0) 推荐(0) 编辑

2023年3月27日

Paper Reading: Interpretable Rule Discovery Through Bilevel Optimization of Split-Rules of Nonlinear Decision Trees

摘要：对于可解释的分类器本文限制为用简单的数学术语表示，使用非线性决策树(NLDT)将分类器表示为简单数学规则的集合。树的每个非叶结节点表示一个非线性数学规则，将给定条件节点中的数据集划分为两个不重叠的子集。通过限制每个条件节点上的分裂规则结构和决策树深度，保证了分类器的可解释性。在给定条件节点上的非线性分裂规则是使用进化的双层优化算法获得的，其中上层集中于到达分裂规则的可解释结构，下层实现规则的各个组成部分的最合适的权重(系数)，以最小化两个结果子节点的净杂质。阅读全文

posted @ 2023-03-27 00:43 乌漆WhiteMoon 阅读(56) 评论(0) 推荐(0) 编辑

乌漆 WhiteMoon

公告