建模一些问题的解读

建模tips

1.数值型特征分箱有什么用处？

数值型特征本是可以直接入模的，但往往风控人员要对其做分箱，转化为WOE编码进而做标准评分卡等操作。从模型效果上来看，特征分箱主要是为了降低变量的复杂性，减少变量噪音对模型的影响，提高自变量和因变量的相关度。从而使模型更加稳定。

特征分箱的目的：
- 从模型效果上来看，特征分箱主要是为了降低变量的复杂性，减少变量噪音对模型的影响，提高自变量和因变量的相关度。从而使模型更加稳定。
数据分桶的对象：
- 将连续变量离散化
- 将多状态的离散变量合并成少状态
分箱的原因：
- 数据的特征内的值跨度可能比较大，对有监督和无监督中如k-均值聚类它使用欧氏距离作为相似度函数来测量数据点之间的相似度。都会造成大吃小的影响，其中一种解决方法是对计数值进行区间量化即数据分桶也叫做数据分箱，然后使用量化后的结果。
分箱的优点：
- 处理缺失值：当数据源可能存在缺失值，此时可以把null单独作为一个分箱。
- 处理异常值：当数据中存在离群点时，可以把其通过分箱离散化处理，从而提高变量的鲁棒性（抗干扰能力）。例如，age若出现200这种异常值，可分入“age > 60”这个分箱里，排除影响。
- 业务解释性：我们习惯于线性判断变量的作用，当x越来越大，y就越来越大。但实际x与y之间经常存在着非线性关系，此时可经过WOE变换。
特别要注意一下分箱的基本原则：
- （1）最小分箱占比不低于5%
- （2）箱内不能全部是好客户
- （3）连续箱单调

在统计学中，如果一个数据分布近似正态，那么大约 68% 的数据值会在均值的一个标准差范围内，大约 95% 会在两个标准差范围内，大约 99.7% 会在三个标准差范围内。所以我们平时用的三个标准差（均值-3*标准差）作为临界点是有依据的，但是要注意数据是否符合正太分布，或者是偏正态分布

树模型对特征的接受能力比较强，不需要对特征归一化，也不需要去相关性

当特征的iv值比较高的时候，我们可以使用逻辑回归或者决策树模型，但当数据特征iv不高，也就是和y值弱相关时，我们可以考虑使用xgboost等，当特征类别型变量特别多时，我们可以使用catboost,

posted on 2021-02-25 20:03 小小喽啰阅读(391) 评论(0) 收藏举报