摘要: 一般要考虑回归模型的共线性问题,但是有了模型才能做,是滞后的操作. 用方差膨胀系数VIF来判断共线性问题,一般VIF<10 则认为没有多重共线性,一般>10则认为有严重的多重共线性,则删掉 vif = [variance_inflation_factor(Xtrain.iloc[:,1:].valu 阅读全文
posted @ 2020-02-20 23:44 少年奶油喵 阅读(1742) 评论(0) 推荐(0) 编辑
摘要: from sklearn.model_selection import train_test_split Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,Y,test_size=0.3,random_state=420) #切分前数据标签的分布情况 tr 阅读全文
posted @ 2020-02-20 23:00 少年奶油喵 阅读(532) 评论(0) 推荐(0) 编辑
摘要: 变量的延申和筛选-连续变量离散化-特征筛选 WOE编码(最优分箱) WOE一般在0.1~3之间波动,IV值做得特征筛选的操作 一般保留>0.03的特征 IV值体现的时X和Y之间的显著性进行筛选 1.逐列分箱并获得IV值 # 运行自定义函数所在文件 对自定义分箱文件要自己理解 %run smob.py 阅读全文
posted @ 2020-02-20 22:54 少年奶油喵 阅读(843) 评论(0) 推荐(0) 编辑
摘要: 背景: 在机器学习中,我们获取的数据往往存在一个问题,就是样本不均匀。比如你有一个样本集合,正例有9900个,负例100个,训练的结果往往是很差的,因为这个模型总趋近于是正例的。 就算全是正那么,也有99%的准确率,看起来挺不错的,但是我们要预测的负样本很可能一个都预测不出来。 这种情况,在机器学习 阅读全文
posted @ 2020-02-20 22:42 少年奶油喵 阅读(2025) 评论(0) 推荐(0) 编辑
摘要: 一.查看 方法1 train_data.describe([0.01,0.1,0.25,0.5,0.75,0.9,0.99]).T # 右偏:求log 主要针对于标签 # 左偏:指数 方法2-作图 散点图 train_data.columns columns = ['NumberOfTime30-5 阅读全文
posted @ 2020-02-20 21:49 少年奶油喵 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 一.画图查看缺失值分布情况 方法1 import missingno as msno # pip install missingno msno.matrix(train_data); 方法2 缺失值高亮 # matplotlib画缺失值 plt.imshow(train_data.isna(),as 阅读全文
posted @ 2020-02-20 21:39 少年奶油喵 阅读(1051) 评论(0) 推荐(0) 编辑
摘要: 一.查看特征数据类型,有没有文本型变量需要处理 train_data.info() train_data.describe(include="all",percentiles=[0.5]).T.round(2) 二.查看缺失值数量或占比 三.查看标签分布 # 查看标签分布 df['label'].v 阅读全文
posted @ 2020-02-20 21:19 少年奶油喵 阅读(245) 评论(0) 推荐(0) 编辑
摘要: train_data = pd.read_csv(r"D:\data\cs-training.csv",index_col=0) # index_col指明y的索引是第⼏列 # 如果您有一个格式不正确的文件,文件末尾有分隔符在每一行中,您可以考虑“index_col=None”来强制pandas不使 阅读全文
posted @ 2020-02-20 21:02 少年奶油喵 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 赵娜分享给同学,来源:https://www.jianshu.com/p/e1239a3f504e 阅读全文
posted @ 2020-02-20 20:28 少年奶油喵 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 留坑 后续 阅读全文
posted @ 2020-02-20 12:36 少年奶油喵 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 数据清洗来源:https://www.cnblogs.com/charlotte77/p/5606926.html 模型调优来源:https://www.cnblogs.com/zackstang/p/12313789.html 阅读全文
posted @ 2020-02-20 12:35 少年奶油喵 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 来源:https://www.cnblogs.com/starcrm/p/11732735.html 来源:https://www.cnblogs.com/rayshaw/p/9037969.html 来源:https://www.cnblogs.com/eilearn/p/9498616.html 阅读全文
posted @ 2020-02-20 12:33 少年奶油喵 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 1 目标客户的特征分析 在目标客户的典型特征分析中,业务场景可以是试运营之前的虚拟特征探索(来源历史数据模拟推测),也可以是试运营之后来自真实运营数据基础上的分析、挖掘和提炼,两者目标一致,只是思路不同、数据来源不同而已。另外,分析技术也有一定的差异。 2 目标客户的预测(响应、分类)模型 这里的预 阅读全文
posted @ 2020-02-20 12:29 少年奶油喵 阅读(1741) 评论(0) 推荐(0) 编辑
摘要: 定义 各类别的出现概率不均衡的情况 如信用风险中正常用户远多于逾期、违约用户;流失风险中留存用户多于流失用户 隐患 降低对少类样本的灵敏性。但我们建模就是要找到这少类样本,所以必须对数据加以处理,来提高灵敏性。 解决方案 1. 过采样 对坏的人群提高权重,即复制坏样本,提高坏样本的占比。 优点: 简 阅读全文
posted @ 2020-02-20 12:23 少年奶油喵 阅读(409) 评论(0) 推荐(0) 编辑