08 2024 档案

摘要:本文提出了一种可扩展自动特征工程方法 SAFE,它包括特征生成阶段和特征选择阶段,具备较高的计算效率、可扩展性,能满足实际业务问题的要求。不同于使用算子枚举所有的生成特征,本文的特征生成阶段专注于挖掘原始特征对,以更高的概率生成更有效的新特征。在特征选择阶段,本文的方法考虑了单个特征的信息量、特征对的冗余性、树模型评估的特征重要性。通过实验证明,SAFE 算法在大量数据集和多个分类器上具有优势,与原始特征空间相比预测精度平均提高了6.50%。 阅读全文
posted @ 2024-08-20 17:22 乌漆WhiteMoon 阅读(29) 评论(0) 推荐(0) 编辑
摘要:本文关注当数据集包含大量样本时的特征选择算法,主要使用梯度增强回归树实现,设计的模型称为梯度增强特征选择 GBFS。在梯度增强框架的基础上,采用贪心 CART 算法构建树。CBFS 对新特征产生的分割将受到惩罚,但如果是重用以前选择的特征就可以避免这个惩罚。当 GBFS 学习回归树的集合时,可以自然地发现特征之间的非线性相互作用。与随机森林的 FS 相比,GBFS 能够实现将特征选择和分类同时进行优化。实验环节在几个不同难度和大小的真实世界数据集上进行评估,结果表明 GBFS 优于或相当于随机森林特征选择的准确性和特征选择的性能,同时可以有效地处理特征间依赖关系。 阅读全文
posted @ 2024-08-16 15:00 乌漆WhiteMoon 阅读(38) 评论(0) 推荐(0) 编辑
摘要:本文提出了一种自动特征工程学习模型 AutoLearn,AutoLearn 基于特征对之间的回归,通过特征相互关联的方式发现数据中的潜在模式及其变化,并选择非常少量的新特征来显著提高预测性能。提出的新的特征生成方法可以捕获特征对中的显著变化,从而产生高度判别性的信息。通过实验证明了我们的方法在大量数据集和多个分类器上的优势,与原始特征空间相比,预测精度平均提高了13.28%。 阅读全文
posted @ 2024-08-13 17:31 乌漆WhiteMoon 阅读(76) 评论(0) 推荐(0) 编辑
摘要:本文提出了一种自动特征生成模型 OpenFE,它通过一个特征增强算法和一个两阶段修剪算法来解决 expand-and-reduce 框架的挑战。本文认为模型再训练并不需要准确评估新特征的增量性能,在梯度增强的启发下提出了一种用于评估新特征增量性能的高效算法 FeatureBoost。同时本文提出了一种两阶段修剪算法,以有效地从大量候选特征中检索有效特征。由于有效特征通常是稀疏的,两阶段剪枝算法以粗到细的方式进行特征剪枝。实验部分在各种数据集中验证了 OpenFE 的性能,OpenFE 大大优于现有的基线方法。同时在自动特征生成模型的研究中很多现有方法都没有开源,本文还复现了一些经典方法并进行了基准测试,以便在未来的研究中进行公平的比较。 阅读全文
posted @ 2024-08-12 18:01 乌漆WhiteMoon 阅读(138) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示