分位点图---箱线图
可以用来异常值检测
上四分位数:75%的分界线---Q3
下四分位数:25%分界线---Q1
画图时,如何设置异常值界限?
首先确定上下限,比如,如果满足超过上限的3倍区间长度就是异常值。
异常值如何处理:
不宜直接删除
如央行(PBC--people’s Bank of China)征信系统(credit system)查询次数---表明此人借贷次数,加上时间维度,可以一定程度反应此人对资金的迫切需求,与逾期率有重要关系。
因此类似异常值就不宜直接删除,如何解决?
- 变量分箱
- 证据权重WOE