分箱方法

无监督分箱:等频、等距

有监督分箱:Bset KS分箱、chi2分箱、决策树分箱

 

一、chi2分箱

关键词:卡方检验、卡方阈值、显著性水平、自由度

什么是卡方检验?应用于哪些问题?(只应用与分类数据)应用方法?(拟合优度检验和独立性检验)

什么是卡方分箱?(基于卡方检验的有监督的分箱方法)

步骤(根据一个chi2 python计算代码总结的):

(1)人为确定最大分箱数(一般为5)。对连续变量排序。

(2)若连续变量取值大于100,先将变量值等距分为100组。若小于100组,但大于设定分箱数,此步不操作。如果小于最大分箱数,跳过该变量。

(3)当总体箱数大于设定分箱数时,对于相邻区间计算卡方值,合并最小chi2值的两个区间。

(4)重复步骤3,直至分箱数不大于设定箱数。

(5)检查是否每一箱都有好坏样本。

(6)第一箱中只有好或者坏样本时,合并1/2箱。最后一箱只有好或者坏样本时,合并最后两箱。其它情况计算和前面箱以及和后面箱的chi2值,

比较chi2值,合并chi2值小的。

(7)重复5/6步骤。

注意:计算两个区间的chi2值时,用的y是区间的坏人率(badrate)。

 

 sklearn中集成的以卡方检验为准则选取重要性高的n个自变量:

http://lijiancheng0614.github.io/scikit-learn/modules/generated/sklearn.feature_selection.chi2.html

 

参考资料: https://blog.csdn.net/u013421629/article/details/78416748

                   https://cloud.tencent.com/developer/article/1418720

二、best_KS分箱

Best-KS分箱的算法执行过程是一个逐步拆分的过程:

1.将特征值值进行从小到大的排序。

2.计算出KS最大的那个值,即为切点,记为D。然后把数据切分成两部分。

3.重复步骤2,进行递归,D左右的数据进一步切割。直到KS的箱体数达到我们的预设阈值即可。

 

 参考文档: https://www.cnblogs.com/wqbin/p/10549683.html

三、决策树分箱

实际效果就是用想要离散化的那个连续变量单变量用树模型(可以用sklearn中的cart树)拟合y。

具体操作方法如下:https://www.2cto.com/net/201805/742502.html

posted on 2019-09-04 09:38  静静的白桦林_andy  阅读(4607)  评论(0编辑  收藏  举报

导航