金融逾期类问题数据建模流程概述

一、数据读取Load Data

二、数据分析、数据展示、EDA

三、数据处理、特征工程

四、建模（模型性能比较、模型选择、超参调优）

五、模型理解、结果分析

------------------------------------------------

一、数据读取Load Data

二、数据分析、数据展示、EDA

目的：对数据有个大体的理解，看有没有明显的特点及反常的表现，增强对数据、业务的理解。

(貌似不重要，但比较炫技的一个过程，也是发散思维体现最充分的地方。比较能把你和其它人分开的地方。)

比如，y的命中率决定了后面是否要过采样、欠采样。x1是类别型还是数值型，是否需要转换，如何转换，和y的表现有什么关系，等等等等。

工具：主要是一些画图的包，matplotlib.pyplot(plt),seaborn(sns),plotly

　　　相关性分析（correlation)

import matplotlib.pyplot as plt

import seaborn as sns

sns.stripplot() 分类散点图

sns.distplot() 直方图

sns.barplot() 条形图

sns.pairplot() 散点图矩阵

pie扇形图、柱状图

一个数据展示的例子例子2 模型融合的例子

三、数据处理、特征工程Feature engineering

目的：对原始数据进行处理，使之成为可建模的、可展示的形式，或者根据其业务含义，需要进行onthot/也即哑变量转换。

工具：1.缺失值是否需要处理？如何处理？ 2.离群值是否需要处理？如何处理？ 3.是否需要标准化？为什么？如何标准化？是否要归一化？

　　　4.是否需要onthot编码？为什么？ 5.是否需要降维技术？为什么？选用何种降维？pca之后如何做？

PCA 主成分分析、factor analysis 因子分析、ICA 独立成分分析，（KernelPCA、IncrementalPCA、Sparse PCA）

矩阵分解：SVD（奇异值分解）

　　　6.是否需要变量交叉生成新变量？如何生成？为什么？生成后如何处理？

　　　7.是否需要分箱？为什么？有哪些分箱方法？分箱之后如何处理？

　　　　pd.qcut(train.loc[:, your_feature].values,q=10,labels=False) ： quantile based binning（基于分位数的分箱，等分）、

　　　　卡方分箱

　　　8. 是否要删掉高相关性变量？为什么？correlation

　　　9.过采样SMOT、欠采样

标准化：

数据的标准化是一个比较常用的数据预处理方法，其目的是处理不同量纲的数据，使其缩放到相同的数据区间和范围，以减少规模，特征、分布差异对模型的影响。

标准化后的数据还具有了直接计算并生成符合指标的意义。

encoder = LabelEncoder()

encoder.fit_transform(train[your_feature + "_qbinned"].values.reshape(-1, 1)) ：归一化

np.round(train.loc[:, your_feature].values) ：标准化

数据的标准化：Z-score、Max-Min、MaxAbs、RobustScaler https://blog.csdn.net/weixin_37536446/article/details/81435461

from sklearn import preprocessing
#scaler = preprocessing.StandardScaler()
#scaler = preprocessing.MaxAbsScaler()
scaler = preprocessing.RobustScaler()
all_data.loc[:,numcols] = scaler.fit_transform(all_data[numcols])

相关性：

all_data.corr()

corr_matrix = all_data.corr().abs() #相关系数的绝对值

upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool))

to_drop = [c for c in upper.columns if any(upper[c] > 0.95)] #相关系数大于0.95的删掉

NB 朴素贝叶斯算法：GaussianNB ，BernoulliNB ，MultinomialNB

bnb = BernoulliNB(fit_prior=True)
bnb.fit(X_train, Y_train)
X_train_bnb = bnb.predict_log_proba(X_train)[:,1]
X_test_bnb = bnb.predict_log_proba(X_test)[:,1]
在scikit-learn中，一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴
素贝叶斯，MultinomialNB就是先验为多项式分布的朴素贝叶斯，而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。
https://www.cnblogs.com/pinard/p/6074222.html