随笔分类 -  Paper Reading

摘要:本文将集成特征选择问题建模为具有两个目标的帕累托优化问题,提出一种类型的异构集成特征选择算法 PEFS。首先采用两种聚合方法对四种不同 FS 方法得到的结果进行组合,接着使用双目标优化来评估这些结果,最后根据非优势特征在双目标空间中的拥挤距离进行排序。该方法平衡了关联度和冗余性两种不同的 FS 方法,对相关性最大、冗余最少的特征给出更高的排序。实验使用了 7 个真实的数据集,将 PEFS 与一些基本的 FS 算法和集成 FS 算法进行比较,结果表明本文提出的方法在 acc、F1 和运行时间上比其他方法更好。 阅读全文
posted @ 2023-08-14 21:37 乌漆WhiteMoon 阅读(161) 评论(0) 推荐(0) 编辑
摘要:为了提高计算机视觉模型的可解释性,本文融合深度学习和决策树提出了神经支持决策树(NBDTs)。NBDT 使用一个可微的倾斜决策树取代了神经网络的最后一个线性层,和经典的决策树方法不同,NBDT 使用从模型参数派生的层次结构,不使用分层 softmax。NBDT 可以从任何现有的分类神经网络中创建,无需对模型架构进行修改。这样的模型结构不会过度拟合特征空间,减少了决策树对高度不确定决策的依赖,并鼓励对高级概念的准确识别。通过实验证明 NBDT 在 ImageNet、TinyImageNet200 和 CIFAR100 上的性能等同于或优于一些现有的模型,模型提供的解释可以让用户更方便地识别模型的错误,并且可用于识别模糊的 ImageNet 标签。 阅读全文
posted @ 2023-08-10 22:51 乌漆WhiteMoon 阅读(274) 评论(0) 推荐(0) 编辑
摘要:针对数据集存在缺失值的问题,本文提出了一种基于多树 GP(MTGP) 的迁移学习方法 pMTGPDA,用于将知识从完整的源域转移到不完整的目标域中。首先在源域的数据集上训练多个 SR 模型,通过模型中的训练细节计算源域的特征和实例的权重作为先验知识。然后将提取的权重知识用于基于 MTGP 的转换,构造源特征空间到目标特征空间的非对称映射,实现估算目标域中缺失的值的作用。产生变换后的特征和实例以及权重后,对输入的目标数据进行正常的 SR,得到输出的结果。对于 MTGP 的交叉、变异操作,本文开发了新的遗传算子进行优化,而且设置的适应度函数能同时度量域之间的不匹配度和 SR 的学习性能。 阅读全文
posted @ 2023-08-09 11:43 乌漆WhiteMoon 阅读(79) 评论(0) 推荐(0) 编辑
摘要:本文提出了一种类不平衡问题的功能树(FT4cip),该模型使用了考虑类不平衡的分割评估函数 Twoing,以及使用了一种优化 AUC 的新型剪枝算法。同时对多变量分割使用特征选择,进一步提高分类性能和可解释性。通过大量的实验分析证明,FT4cip 在 AUC 上的分类性能优于 LMT 和 Gama。接着对几种算法进行元分析,显示了 FT4cip 比 LMT 和 Gama 具有更好性能的问题类型。最后根据对分类性能的影响对算法的不同进行排序,证明所采取的设计决策是合理的。 阅读全文
posted @ 2023-08-08 01:04 乌漆WhiteMoon 阅读(71) 评论(0) 推荐(0) 编辑
摘要:为了实现既能处理原始图像,又能保留原始图像的属性,并且能够生成既具有高视觉质量又能丰富深度模型判别能力的图像。本文在 SMOTE 方法的基础上提出了一种新的深度学习模型过采样算法 DeepSMOTE,由三个主要部分组成:Encoder/Decoder、SMOTE、用惩罚项增强的 loss 函数。该方法允许在深度学习模型中嵌入有效的人工实例,以实现简化的端到端过程,和 GAN 方法不同在于 DeepSMOTE 在训练中不需要鉴别器。将 DeepSMOTE 与多种现有的算法进行比较,使用五种流行的图像基准和三种专用的评价指标证明 DeepSMOTE 的性能更优。DeepSMOTE 生成的高质量人工图像既适合视觉检查,又具有丰富的信息,可以有效地平衡类别并减轻不平衡分布的影响。 阅读全文
posted @ 2023-08-03 00:34 乌漆WhiteMoon 阅读(481) 评论(0) 推荐(0) 编辑
摘要:受人类学习过程的启发,本文根据学习速度设计了样本难度模型,并提出了一种新的实例级再平衡策略。具体来说模型在每个训练周期记录每个实例的预测,并根据预测的变化来测量该样本的难度难度。然后对困难实例赋予更高的权重,对数据进行重新采样。本文从理论上证明了提出的重采样策略的正确性和收敛性,并进行一些实证实验来展示本文算法的能力。 阅读全文
posted @ 2023-07-24 00:35 乌漆WhiteMoon 阅读(757) 评论(0) 推荐(1) 编辑
摘要:本文是不平衡分类问题的经典论文,文中提出了 2 种不平衡集成学习模型都是简单而有效的 baseline 方法。 EasyEnsemble 方法直接对多数类样本进行采样得到几个子集,并使用这些子集分别训练基分类器。BalanceCascade 是使用训练好的分类器来指导后续分类器的采样过程,即在上一个分类器被分类正确的样本将在下一个分类器中移除。两种方法在 16 个 UCI 数据集上的实验表明,与许多现有的类失衡学习方法相比,这两种方法在各个指标上都具有更高的性能。 阅读全文
posted @ 2023-07-22 22:05 乌漆WhiteMoon 阅读(207) 评论(0) 推荐(0) 编辑
摘要:目前很多方法都不能很好地处理高度不平衡、大规模和有噪声的分类任务,主要原因是它们忽视了不平衡学习所隐含的困难。本文引入“分类硬度”的概念来刻画不平衡问题的困难所在,该概念表示为特定分类器正确分类样本的难度。基于这个概念,本文提出了一种新的学习框架——自定步速集成(self-pace Ensemble,SPE)。SPE 通过考虑分类硬度在数据集上的分布,根据硬度分布迭代选择信息量最大的多数数据样本,欠采样策略由自定节奏程序控制。这种过程使 SPE 框架逐渐集中在较难的数据样本上,同时仍然保留容易样本分布的知识,以防止过拟合。 通过大量的实验表明,与现有方法相比,SPE 具有准确、快速、鲁棒性好、适应性强等优点。 阅读全文
posted @ 2023-07-13 20:00 乌漆WhiteMoon 阅读(20970) 评论(0) 推荐(0) 编辑
摘要:大多数处理不平衡学习的技术都是针对二分类问题提出的,这些方法并不一定适用于不平衡的多分类任务。针对这些问题,本文提出了一种新的自适应方法——基于多目标遗传抽样的分类器集成(E-MOSAIC)。E-MOSAIC 将训练数据集中提取的样本编码为个体进行进化,通过多目标优化过程搜索能够在所有类别中产生具有高预测精度的分类器的实例的最佳组合。E-MOSAIC 还兼顾了分类器的多样性,这些分类器被组合成一个专门为不平衡学习设计的集成。本文在 20 个不平衡多类数据集进行了实验,和包括基于采样、主动学习、成本敏感和 Boosting 的方法进行对比,实验结果表明该方法对多类精度指标 mAUC 和 G-mean 的预测性能更优。 阅读全文
posted @ 2023-07-09 20:04 乌漆WhiteMoon 阅读(126) 评论(0) 推荐(0) 编辑
摘要:针对 SMOTE 的缺点,本文提出了一种基于建设性覆盖算法(CCA)的三向决策抽样方法(CTD)。CTD 首先使用 CCA 构造不平衡数据的覆盖,然后选择少数样本的覆盖并根据覆盖的密度划分为三个区域。最后根据覆盖分布规律得到相应的阈值 α 和 β,选择关键样本进行SMOTE过采样。考虑到 CCA 随机选择覆盖中心所带来的不确定性,本文进一步提出了一种基于 CTD 的集成模型 CTDE 提高算法的效率。通过在多个不平衡数据集上的实验表明,该方法优于对比方法,通过构建基于关键样本选择的三向决策集成也使模型的性能得到了有效提高。 阅读全文
posted @ 2023-07-06 16:25 乌漆WhiteMoon 阅读(156) 评论(0) 推荐(0) 编辑
摘要:针对不平衡数据问题,本文提出了一种基于模型的综合抽样(MBS)方法,从一个新的角度对少数类实例进行过采样。MBS 是一种过采样算法,目标是生成能够捕捉少数类训练样本特征之间关系的合成样本,同时保持数据样本的可变性。首先利用回归模型捕获少数类样本的特征趋势,接着通过对可用特征值进行采样生成临时数据样本,最后通过构建的模型将临时数据样本转换为合成数据。实验将 MBS 与几种方法进行了比较,实验结果表明,所提出的方法具有较好的效果和较高的稳定性。 阅读全文
posted @ 2023-07-04 22:55 乌漆WhiteMoon 阅读(137) 评论(0) 推荐(0) 编辑
摘要:对于不平衡的二分类问题,大多数现有的方法只关注采样、成本敏感学习、集成学习中的其中一种。本文提出了 DDAE 模型来解决不平衡二分类问题的限制,它集成了采样、数据空间构建、代价敏感学习和集成学习的方法。具体来说,DDAE 由四个主要部分组成:数据块构建、数据空间改进、自适应权值调整、集成学习。本文基于 14 个公共数据集进行了实验,结果表明 DDAE 模型在 Recall、G-mean、F-measure 和 AUC 方面都优于目前的方法。 阅读全文
posted @ 2023-07-02 23:41 乌漆WhiteMoon 阅读(183) 评论(0) 推荐(0) 编辑
摘要:本文通过整合基于树的方法和神经网络,提出了一个梯度增强神经决策森林(GrNDF)模型。GrNDF 具有较高的高灵活性和可解释性,灵活性体现在通过将输入映射到嵌入层来灵活地处理不同类型或大小的特征。可解释性体现在可以通过神经决策树传递输入来解释,其中分裂节点显示输入数据到叶节点的概率,叶节点显示预测结果的不同概率分布。并通过概率神经决策树提供输入来解释,其中分裂节点显示传输到叶节点的输入的概率,而叶节点显示用于预测的不同概率分布。GrNDF 进行了调参实验和消融实验,并评估了模型在几个不同特点的数据集上的性能。与一系列 baseline 和现有的研究相比,本文模型具有较好的预测性能。 阅读全文
posted @ 2023-05-31 00:57 乌漆WhiteMoon 阅读(98) 评论(0) 推荐(0) 编辑
摘要:本文设计了自适应神经树(ANT)将 NN 和 DT 的优点结合起来,ANT 将树结构中的路由决策和根到叶的计算路径表示为 NN,从而实现了分层表示学习。ANT 以树形拓扑作为一个强结构先验,通过该结构令特征以分层方式共享和分离。同时提出了一种基于反向传播的训练算法,基于一系列决策来生长 ANT 的结构。总而言之,ANT同时具备了表示学习、架构学习、轻量级推理的能力。通过SARCOS、MNIST 和 CIFAR-10 数据集的实验,证明了本文方法具有较好的性能,具有多种良好的特性。 阅读全文
posted @ 2023-05-27 21:21 乌漆WhiteMoon 阅读(267) 评论(0) 推荐(0) 编辑
摘要:为了解决样本数量远少于特征数量的“n << p”问题,并设计一个不依赖外部知识的分类模型,本文提出了一个森林图嵌入深度前馈网络(forgeNet)模型。该模型将 GEDFN 架构与森林特征图提取器集成在一起,从而可以以监督的方式学习特征图并为给定的任务构建特征图。为了验证该方法的能力,本文用合成数据集和真实数据集对 forgeNet 模型进行了实验。实验结果表明本文的模型具有较高的精度和鲁棒性,提供的特征重要性排名具有生物学上的意义。 阅读全文
posted @ 2023-05-23 20:54 乌漆WhiteMoon 阅读(132) 评论(0) 推荐(0) 编辑
摘要:综合 CART 和 GP 方法的优点,本文提出了一种新的回归方法——分段符号回归树(PS-Tree)。基本思想是通过CART将特征空间划分为若干个子区域,然后使用 GP 和岭回归为每个子区域构建一个简单的回归模型。在模型训练算法方面,使用分类树动态学习每个分区的最合适的数据分配方案,并进化出一组 GP 个体来表达非线性特征,在所有区域构建局部岭回归模型。GP 的特征构建被转化为一个多目标优化问题,从而获得了用于所有子区域的一组重要的特征。由于初始空间分区可能不正确,因此算法还部署了一种动态调整分区方案的自适应方法。 阅读全文
posted @ 2023-03-28 16:24 乌漆WhiteMoon 阅读(346) 评论(0) 推荐(0) 编辑
摘要:对于可解释的分类器本文限制为用简单的数学术语表示,使用非线性决策树(NLDT)将分类器表示为简单数学规则的集合。树的每个非叶结节点表示一个非线性数学规则,将给定条件节点中的数据集划分为两个不重叠的子集。通过限制每个条件节点上的分裂规则结构和决策树深度,保证了分类器的可解释性。在给定条件节点上的非线性分裂规则是使用进化的双层优化算法获得的,其中上层集中于到达分裂规则的可解释结构,下层实现规则的各个组成部分的最合适的权重(系数),以最小化两个结果子节点的净杂质。 阅读全文
posted @ 2023-03-27 00:43 乌漆WhiteMoon 阅读(90) 评论(0) 推荐(0) 编辑
摘要:本文提出了一种 XRRF 算法,它通过执行本文提出的 SGFL 和 RRF 算法来得到可解释性、准确性和可解释性之间的权衡。随后引入了基于决策路径特征提取的方法,根据具体的应用解释模型的输出。其中 SGFL 能确定有助于模型准确性的特征,同时保持特征关系的可靠性。RRF 算法则通过利用所提出的改进随机通用采样(MSUS)方法和优先级特征集,在分类和回归问题上实现了良好的性能。 阅读全文
posted @ 2023-03-23 00:28 乌漆WhiteMoon 阅读(271) 评论(0) 推荐(0) 编辑
摘要:本文中提出了一种基于深度学习的随机子空间模型——神经随机子空间模型(Neural Random subspace, NRS),实现了在 NN 中可使用的随机子空间方法。它可以充分地处理表格型的数据,并且相对于传统的基于随机子空间的森林方法实现了更高的精度和更快的推理速度。 此外 NRS 可以配置在 CNN 末端的 GAP 层之后,对 GAP 的输出进行非线性转换。NRS 可获得比标准GAP更高的精度,且在模型参数、FLOPs 和时间方面的额外成本可以忽略不计。 阅读全文
posted @ 2023-03-14 16:32 乌漆WhiteMoon 阅读(143) 评论(0) 推荐(0) 编辑
摘要:文章提出了一种进化森林算法,它将多组非线性特征组合成一个倾斜的随机森林。本算法中使用了遗传规划(GP)方法来构造非线性特征,每个GP个体代表一组特征。为了获得最优的随机森林,算法在外部存储了进化过程中各种表现良好的 GP 个体。在进化结束时,根据存储的 GP 个体建立一组决策树,形成最终的集成模型。 阅读全文
posted @ 2023-03-08 18:33 乌漆WhiteMoon 阅读(248) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示