5.1&5.2数据准备之降低基数
一.数据准备
- 合并类别,降低基数
- 将连续变量分段,WOE
- 抽样和权重计算
前两项任务称为变量分群。
决策树软件包的GUI,是进行最优分群的常用工具。???
二.降低基数且使预测能力最大化
%ReduceCats(DSin,IVVar,DVVar,Method,MMax,DSVarMap)
/* 输入数据集,名义自变量,二元因变量,进行最优分群的方法,要求的分群数量,包含映射规则的输出数据集*/
适用于数据集:
%ApplyMap1(DSin,VarX,NewVarX,DSVarMap,Dsout)
/* 输入数据集,被映射的变量,新变量名称(分段的值),从宏映射的数据集,输出数据集*/