在进行有监督的机器学习时,特征工程显得尤其重要,本文介绍的是在人工提取一些特征之后,怎样对这些特征进行二阶组合提取; 在进行一系列的摸索之后,得到3个基本点: 最优分箱(见前面的博文) 进行WOE变换(将原特征用分箱后的WOE值替换) 如果离散特征的维度较低(低到多少自己定,可根据前面的博文输出结果 Read More
posted @ 2018-07-27 17:31 Reynold.C Views(1955) Comments(0) Diggs(0) Edit
记录一下pandas常用的小技巧,时间长了干别的去了会忘记,记录一下: 1. 在处理数据过程中涉及到label和null的处理方法 2. pandas中对两列的处理,比如字符串拼接 3. 特征对比图 Read More
posted @ 2018-07-27 14:42 Reynold.C Views(329) Comments(0) Diggs(0) Edit
xgboost原生包中有一个dump_model方法,这个方法能帮助我们看到基分类器的决策树如何选择特征进行分裂节点的,使用的基分类器有两个特点: 由dump_model生成的booster格式如下: 我们可以对该类型的树结构进行解析,得到这个基分类器中特征用来分裂的频率,简单的脚本如下: 得到结果 Read More
posted @ 2018-07-27 11:50 Reynold.C Views(5443) Comments(0) Diggs(1) Edit