03 2023 档案
摘要:综合 CART 和 GP 方法的优点,本文提出了一种新的回归方法——分段符号回归树(PS-Tree)。基本思想是通过CART将特征空间划分为若干个子区域,然后使用 GP 和岭回归为每个子区域构建一个简单的回归模型。在模型训练算法方面,使用分类树动态学习每个分区的最合适的数据分配方案,并进化出一组 GP 个体来表达非线性特征,在所有区域构建局部岭回归模型。GP 的特征构建被转化为一个多目标优化问题,从而获得了用于所有子区域的一组重要的特征。由于初始空间分区可能不正确,因此算法还部署了一种动态调整分区方案的自适应方法。
阅读全文
摘要:对于可解释的分类器本文限制为用简单的数学术语表示,使用非线性决策树(NLDT)将分类器表示为简单数学规则的集合。树的每个非叶结节点表示一个非线性数学规则,将给定条件节点中的数据集划分为两个不重叠的子集。通过限制每个条件节点上的分裂规则结构和决策树深度,保证了分类器的可解释性。在给定条件节点上的非线性分裂规则是使用进化的双层优化算法获得的,其中上层集中于到达分裂规则的可解释结构,下层实现规则的各个组成部分的最合适的权重(系数),以最小化两个结果子节点的净杂质。
阅读全文
摘要:本文提出了一种 XRRF 算法,它通过执行本文提出的 SGFL 和 RRF 算法来得到可解释性、准确性和可解释性之间的权衡。随后引入了基于决策路径特征提取的方法,根据具体的应用解释模型的输出。其中 SGFL 能确定有助于模型准确性的特征,同时保持特征关系的可靠性。RRF 算法则通过利用所提出的改进随机通用采样(MSUS)方法和优先级特征集,在分类和回归问题上实现了良好的性能。
阅读全文
摘要:本文中提出了一种基于深度学习的随机子空间模型——神经随机子空间模型(Neural Random subspace, NRS),实现了在 NN 中可使用的随机子空间方法。它可以充分地处理表格型的数据,并且相对于传统的基于随机子空间的森林方法实现了更高的精度和更快的推理速度。
此外 NRS 可以配置在 CNN 末端的 GAP 层之后,对 GAP 的输出进行非线性转换。NRS 可获得比标准GAP更高的精度,且在模型参数、FLOPs 和时间方面的额外成本可以忽略不计。
阅读全文
摘要:现有一份介绍某地点的 txt 文件,需要编写 Python 程序制作介绍文档的词云图。 #读取数据 ##数据预处理 文本中可能存在着许多特殊符号,这些符号中不蕴含有效信息,且会影响分词效果,所以需要去除。对于空格、换行、制表符等停顿的符号,也需要统一换成中文逗号。由于本次处理的是中文文本,所以文本的
阅读全文
摘要:文章提出了一种进化森林算法,它将多组非线性特征组合成一个倾斜的随机森林。本算法中使用了遗传规划(GP)方法来构造非线性特征,每个GP个体代表一组特征。为了获得最优的随机森林,算法在外部存储了进化过程中各种表现良好的 GP 个体。在进化结束时,根据存储的 GP 个体建立一组决策树,形成最终的集成模型。
阅读全文