2020 年 2月 20 日随笔档案 - 少年奶油喵

2020年2月20日

摘要：一般要考虑回归模型的共线性问题,但是有了模型才能做,是滞后的操作. 用方差膨胀系数VIF来判断共线性问题,一般VIF<10 则认为没有多重共线性,一般>10则认为有严重的多重共线性,则删掉 vif = [variance_inflation_factor(Xtrain.iloc[:,1:].valu 阅读全文

posted @ 2020-02-20 23:44 少年奶油喵阅读(1742) 评论(0) 推荐(0) 编辑

数据集切分

摘要： from sklearn.model_selection import train_test_split Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,Y,test_size=0.3,random_state=420) #切分前数据标签的分布情况 tr 阅读全文

posted @ 2020-02-20 23:00 少年奶油喵阅读(532) 评论(0) 推荐(0) 编辑

数据离散化-分箱

摘要：变量的延申和筛选-连续变量离散化-特征筛选 WOE编码(最优分箱) WOE一般在0.1~3之间波动,IV值做得特征筛选的操作一般保留>0.03的特征 IV值体现的时X和Y之间的显著性进行筛选 1.逐列分箱并获得IV值 # 运行自定义函数所在文件对自定义分箱文件要自己理解 %run smob.py 阅读全文

posted @ 2020-02-20 22:54 少年奶油喵阅读(843) 评论(0) 推荐(0) 编辑

数据预处理-非平衡样本的处理方式(SMOTE--待补充)

摘要：背景：在机器学习中，我们获取的数据往往存在一个问题，就是样本不均匀。比如你有一个样本集合，正例有9900个，负例100个，训练的结果往往是很差的，因为这个模型总趋近于是正例的。就算全是正那么，也有99%的准确率，看起来挺不错的，但是我们要预测的负样本很可能一个都预测不出来。这种情况，在机器学习阅读全文

posted @ 2020-02-20 22:42 少年奶油喵阅读(2025) 评论(0) 推荐(0) 编辑

数据预处理-异常值

摘要：一.查看方法1 train_data.describe([0.01,0.1,0.25,0.5,0.75,0.9,0.99]).T # 右偏：求log 主要针对于标签 # 左偏：指数方法2-作图散点图 train_data.columns columns = ['NumberOfTime30-5 阅读全文

posted @ 2020-02-20 21:49 少年奶油喵阅读(439) 评论(0) 推荐(0) 编辑

数据预处理-缺失值

摘要：一.画图查看缺失值分布情况方法1 import missingno as msno # pip install missingno msno.matrix(train_data); 方法2 缺失值高亮 # matplotlib画缺失值 plt.imshow(train_data.isna(),as 阅读全文

posted @ 2020-02-20 21:39 少年奶油喵阅读(1051) 评论(0) 推荐(0) 编辑

数据探索

摘要：一.查看特征数据类型,有没有文本型变量需要处理 train_data.info() train_data.describe(include="all",percentiles=[0.5]).T.round(2) 二.查看缺失值数量或占比三.查看标签分布 # 查看标签分布 df['label'].v 阅读全文

posted @ 2020-02-20 21:19 少年奶油喵阅读(245) 评论(0) 推荐(0) 编辑

导入数据

摘要： train_data = pd.read_csv(r"D:\data\cs-training.csv",index_col=0) # index_col指明y的索引是第⼏列 # 如果您有一个格式不正确的文件，文件末尾有分隔符在每一行中，您可以考虑“index_col=None”来强制pandas不使阅读全文

posted @ 2020-02-20 21:02 少年奶油喵阅读(163) 评论(0) 推荐(0) 编辑

利用数组进行快速向量化运算

摘要：赵娜分享给同学,来源:https://www.jianshu.com/p/e1239a3f504e 阅读全文

posted @ 2020-02-20 20:28 少年奶油喵阅读(107) 评论(0) 推荐(0) 编辑

ETL脚本编写

摘要：留坑后续阅读全文

posted @ 2020-02-20 12:36 少年奶油喵阅读(383) 评论(0) 推荐(0) 编辑

数据清洗&模型调优

摘要：数据清洗来源:https://www.cnblogs.com/charlotte77/p/5606926.html 模型调优来源:https://www.cnblogs.com/zackstang/p/12313789.html 阅读全文

posted @ 2020-02-20 12:35 少年奶油喵阅读(152) 评论(0) 推荐(0) 编辑

数据挖掘一般步骤

摘要：来源:https://www.cnblogs.com/starcrm/p/11732735.html 来源:https://www.cnblogs.com/rayshaw/p/9037969.html 来源:https://www.cnblogs.com/eilearn/p/9498616.html 阅读全文

posted @ 2020-02-20 12:33 少年奶油喵阅读(211) 评论(0) 推荐(0) 编辑

常见的数据分析项目类型

摘要： 1 目标客户的特征分析在目标客户的典型特征分析中，业务场景可以是试运营之前的虚拟特征探索（来源历史数据模拟推测），也可以是试运营之后来自真实运营数据基础上的分析、挖掘和提炼，两者目标一致，只是思路不同、数据来源不同而已。另外，分析技术也有一定的差异。 2 目标客户的预测（响应、分类）模型这里的预阅读全文

posted @ 2020-02-20 12:29 少年奶油喵阅读(1741) 评论(0) 推荐(0) 编辑

【风控】非平衡样本问题的定义和解决办法

摘要：定义各类别的出现概率不均衡的情况如信用风险中正常用户远多于逾期、违约用户；流失风险中留存用户多于流失用户隐患降低对少类样本的灵敏性。但我们建模就是要找到这少类样本，所以必须对数据加以处理，来提高灵敏性。解决方案 1. 过采样对坏的人群提高权重，即复制坏样本，提高坏样本的占比。优点：简阅读全文

posted @ 2020-02-20 12:23 少年奶油喵阅读(409) 评论(0) 推荐(0) 编辑

少年奶油喵

公告