非均衡数据分布的分类问题
原文:http://blog.sina.com.cn/s/blog_61c463090102w9js.html
paper学习分享:Large Unbalanced Credit Scoring Using Lasso-Logistic&nbs
Large Unbalanced Credit Scoring Using Lasso-Logistic Regression Ensemble
最近研究风控领域的非均衡数据分布的分类问题,搜集一些paper阅读,在此分享该paper的思想,可以基于实际数据集操作,实验。
中心思想:基于规则化的LR模型作为基础学习器,然后对基础学习器进行集成学习
贡献点:
(1)基于规则化的LR进行ensemble;
(2)数据均衡化处理,基于聚类算法和bagging算法
(3)提出两种新的变量重要性度量方式
数据集:http://www.kaggle.com/c/GiveMeSomeCredit
业务:信用评分
模型:评分卡模型
挑战:数据高度不均衡,数据倾斜
data collected are usually highly unbalanced or skewed,常见算法
Cost-sensitive learning and re-sampling approaches
Lasso-logistic regression ensemble(LLRE)
lasso-LR
bagging Algorithm
LLRE 算法
(1)数据均衡化处理,基于变量的相似性,对majority class进行聚类,得到subgroup数据;
(2)数据多样性处理,对minority class进行resample bagging处理;
(3)合并上述majority 和 minority sub-group数据集,得到sub-dataset;
ensemble方法
加权平均,权重计算
wi = 1 / (1 + exp(-pi)),其中wi表示第i个分类器的权重,pi表示第i个分类器在第i个obs验证数据集上的性能
变量重要性评估
(1)LLR-occurrence measure
The presence or absence of a predictor variable in the Lasso model naturally indicates whether it is closely related to the outcome variable or not
(2)基于AUC decrease确定变量重要性
模型效果比较(基于kaggle数据集)
RunNo LLRE RF LLR CART
1 0.8598 0.857 0.8571 0.7632
2 0.8553 0.8538 0.8526 0.7676
3 0.8662 0.8609 0.8651 0.7786
4 0.8602 0.8576 0.8577 0.7778
5 0.858 0.8564 0.8559 0.7746
6 0.8662 0.8628 0.8638 0.7689
7 0.8544 0.8536 0.8526 0.77
8 0.8619 0.8617 0.8589 0.7749
9 0.8657 0.8606 0.8636 0.7832
10 0.8575 0.8569 0.8561 0.7665
11 0.8622 0.8578 0.8604 0.7762
12 0.8565 0.8551 0.8542 0.7748
13 0.8576 0.8519 0.8573 0.7763
14 0.8573 0.8537 0.8547 0.7761
15 0.8638 0.8648 0.8606 0.7699
16 0.8567 0.8535 0.8547 0.7728
17 0.8586 0.8579 0.8558 0.7783
18 0.8696 0.8631 0.8666 0.7792
19 0.8529 0.8523 0.8506 0.77
20 0.8651 0.8607 0.8609 0.7732
参考paper:
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0117844
大数据集下的非均衡数据分布的分类问题更为突出,可以借鉴一些思路引入到实际工作之中,反欺诈等等。