每当有人问我数据不均衡的处理时候,我推荐他使用smote
见:
https://github.com/IBM/xgboost-smote-detect-fraud/blob/master/notebook/Fraud_Detection.ipynb
可以看到在不使用smote前,召回率和精度都不好(对恶意样本),使用了smote做数据增强后,两个指标都好了很多。
见:
https://github.com/IBM/xgboost-smote-detect-fraud/blob/master/notebook/Fraud_Detection.ipynb
可以看到在不使用smote前,召回率和精度都不好(对恶意样本),使用了smote做数据增强后,两个指标都好了很多。