金融风控 Task02 数据分析

【数据挖掘】金融风控 Task02 数据分析

    1. 探索性数据分析(EDA)概述
      1. 1 探索性数据分析概念
    • 1.2 探索性数据分析目的
    • 1.3 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别
    1. 金融风控实战
    • 2.1 导入所需要的库
    • 2.2 文件读取
      • 2.2.1 TSV和CSV区别
      • 2.2.2 读取大文件
      • 2.2.3 通过os.getcwd()查看当前工作目录
    • 2.3 数据总体了解
    • 2.4 查看数据中的缺失值,唯一值等
      • 2.4.1 查看缺失值
      • 2.4.2 查看唯一值
    • 2.5 查看数值特征与对象类型
      • 2.5.1 数值特征
      • 2.5.1.1 查看数值特征(是数值型还是类别型)
      • 2.5.1.2 划分数值型变量中的连续变量和离散型变量
      • 2.5.1.3 离散型变量分析
      • 2.5.1.4 连续型变量分析
      • 2.5.1.5 非数值型类别变量分析
    • 2.6 变量分布可视化
      • 2.6.1 单一变量分布可视化
      • 2.6.2 根据y值不同可视化x某个特征的分布
    • 2.7 时间数据处理及查看
    • 2.7 透视图
    • 2.8 使用pandas_profiling生成数据报告

学习地址: [ https: //github.com/datawhalechina/team-learning-data-
mining/tree/master/FinancialRiskControl

](https://github.com/datawhalechina/team-learning-data-
mining/tree/master/FinancialRiskControl)
天池竞赛地址: [ https://tianchi.aliyun.com/competition/entrance/531830/introduction

](https://tianchi.aliyun.com/competition/entrance/531830/introduction)


由于之前已经参与过数据分析的入门教程,一些基础的知识点不在重复记录
本次组队内容的优点在于其系统性,通过函数实现代码封装 及整体的处理思路都值得日后去借鉴


1. 探索性数据分析(EDA)概述

1. 1 探索性数据分析概念

探索性数据分析所谓探索性数据分析( Exploratory Data Analysis )以下简称EDA,是指对已有的数据( 特别是调查或观察得来的原始数据
)在尽量少的先验假定下进行探索通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

1.2 探索性数据分析目的

  • 了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模。
  • 了解变量间的相互关系,变量与预测值之间的存在关系。
  • 为特征工程做准备

1.3 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别

  • 传统的统计分析方法通常是 先假设样本服从某种分布,然后把数据套入假设模型再做分析 。但由于多数数据并不能满足假设的分布,因此,传统统计分析结果常常不能让人满意。
  • 探索性数据分析方法 注重数据的真实分布,强调数据的可视化 ,使分析者能一目了然看出数据中隐含的规律,从而得到启发,以此帮助分析者找到适合数据的模型。“探索性”是指分析者对待解问题的理解会随着研究的深入不断变化。

传统数据分析步骤
在这里插入图片描述
在这里插入图片描述


2. 金融风控实战

参数表,已根据本节分析所得结果进行描述补充

变量 含义 数据量及类型 类型
id 为贷款清单分配的唯一信用证标识 800000 non-null int64 连续型数值特征
loanAmnt 贷款金额 800000 non-null float64 连续型数值特征
term 贷款期限(year) 800000 non-null int64 离散型数值特征
interestRate 贷款利率 800000 non-null float64 连续型数值特征
installment 分期付款金额 800000 non-null float64 连续型数值特征
grade 贷款等级 800000 non-null object 类别特征:用A、B、C、D、E、F、G表示的
subGrade 贷款等级之子级 800000 non-null object 类别特征:每类有五个子类用如A1、A2…A5表示
employmentTitle 就业职称 799999 non-null float64 连续型数值特征 :用一串编码的数字来表示的
employmentLength 就业年限(年) 753201 non-null object 类别特征:格式为如2

year
homeOwnership | 借款人在登记时提供的房屋所有权状况 | 800000 non-null int64 |
有0、1、2、3、4、5六种
annualIncome | 年收入 | 800000 non-null float64 | 连续型数值特征
verificationStatus | 验证状态 | 800000 non-null int64 | 有0、1、2三种
issueDate | 贷款发放的月份 | 800000 non-null object | 非数值特征:2014-07-01形式
isDefault | 是否违约 | 0或者1 |
purpose | 借款人在贷款申请时的贷款用途类别 | 800000 non-null int64 | 离散型数值特征:0~13
postCode | 借款人在贷款申请中提供的邮政编码的前3位数字 | 799999 non-null float64 | 连续型数值特征
regionCode | 地区编码 | 800000 non-null int64 | 连续型数值特征
dti | 债务收入比 | 799761 non-null float64 | 连续型数值特征
delinquency_2years | 借款人过去2年信用档案中逾期30天以上的违约事件数 | 800000 non-null float64
| 连续型数值特征
ficoRangeLow | 借款人在贷款发放时的fico所属的下限范围 | 800000 non-null float64 | 连续型数值特征
ficoRangeHigh | 借款人在贷款发放时的fico所属的上限范围 | 800000 non-null float64 |
连续型数值特征
openAcc | 借款人信用档案中未结信用额度的数量 | 800000 non-null float64 | 连续型数值特征
pubRec | 贬损公共记录的数量 | 800000 non-null float64 | 连续型数值特征
pubRecBankruptcies | 公开记录清除的数量 | 799595 non-null float64 | 连续型数值特征
revolBal | 信贷周转余额合计 | 800000 non-null float64 | 连续型数值特征
revolUtil | 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额 | 799469 non-null float64 |
连续型数值特征
totalAcc | 借款人信用档案中当前的信用额度总数 | 800000 non-null float64 | 连续型数值特征
initialListStatus | 贷款的初始列表状态 | 800000 non-null int64 | 离散型数值特征:0或者1
applicationType | 表明贷款是个人申请还是与两个共同借款人的联合申请 | 800000 non-null int64 |
离散型数值特征
earliesCreditLine | 借款人最早报告的信用额度开立的月份 | 800000 non-null object |
非数值型特征:Aug-2001
title | 借款人提供的贷款名称 | 799999 non-null float64 | 离散型数值特征:0或1
policyCode | 公开可用的策略_代码=1新产品不公开可用的策略_代码=2 | 800000 non-null float64 |
离散型数值特征
n0 | | 759730 non-null float64 | 连续型数值特征
n1 | | 759730 non-null float64 | 连续型数值特征
n2 | | 759730 non-null float64 | 连续型数值特征
n2.1 | | 759730 non-null float64 | 连续型数值特征
n4 | | 766761 non-null float64 | 连续型数值特征
n5 | | 759730 non-null float64 | 连续型数值特征
n6 | | 759730 non-null float64 | 连续型数值特征
n7 | | 759730 non-null float64 | 连续型数值特征
n8 | | 759729 non-null float64 | 连续型数值特征
n9 | | 759730 non-null float64 | 连续型数值特征
n10 | | 766761 non-null float64 | 连续型数值特征
n11 | | 730248 non-null float64 | 离散型数值特征
n12 | | 759730 non-null float64 | 离散型数值特征
n13 | | 759730 non-null float64 | 连续型数值特征
n14 | | 759730 non-null float64 | 连续型数值特征

2.1 导入所需要的库

    import pandas as pd 
    import numpy as np
    import matplotlib.pyplot as plt
    %matplotlib inline
    import seaborn as sns
    """
    python通过调用warnings模块中定义的warn()函数来发出警告。
    通过下面两行代码来忽略警告
    """
    import warnings
    warnings.filterwarnings('ignore')

2.2 文件读取

训练集为47列,测试集为48列,具体包含内容见上面

    #导入训练集
    data_train=pd.read_csv('./train.csv')
    data_train.head()
    
    #导入测试集
    data_test_a=pd.read_csv('./testA.csv')

2.2.1 TSV和CSV区别

  • TSV是用制表符 (Tab,'\t') 作为字段值的分隔符;
  • CSV是用半角逗号 (',') 作为字段值的分隔符;

2.2.2 读取大文件

  • 对于较大的文件,可以通过nrows来实现部分读取
    #通过nrows参数,来设置读取文件的前多少行,nrows是一个大于等于0的整数。
    data_train_sample = pd.read_csv("./train.csv",nrows=5)
  • 通过chunksize实现分块读取
    #设置chunksize参数,来控制每次迭代数据的大小
    chunker = pd.read_csv("./train.csv",chunksize=100)
    for item in chunker:
        print(type(item))
        #<class 'pandas.core.frame.DataFrame'>
        print(len(item))
        #100

2.2.3 通过os.getcwd()查看当前工作目录

pandas读取数据时相对路径载入报错时,可使用 os.getcwd() 查看当前工作目录。


2.3 数据总体了解

  • 查看数据形状 df.shape
    ##查看测试集的shape
    data_test_a.shape
    #(200000, 48)
    
    ##查看训练集的shape 可以发现训练集是测试集的四倍
    data_train.shape   
    #(800000, 47)
  • 查看列名 df.columns
    data_train.columns
    
    #Index(['id', 'loanAmnt', 'term', 'interestRate', 'installment', 'grade',
           'subGrade', 'employmentTitle', 'employmentLength', 'homeOwnership',
           'annualIncome', 'verificationStatus', 'issueDate', 'isDefault',
           'purpose', 'postCode', 'regionCode', 'dti', 'delinquency_2years',
           'ficoRangeLow', 'ficoRangeHigh', 'openAcc', 'pubRec',
           'pubRecBankruptcies', 'revolBal', 'revolUtil', 'totalAcc',
           'initialListStatus', 'applicationType', 'earliesCreditLine', 'title',
           'policyCode', 'n0', 'n1', 'n2', 'n2.1', 'n4', 'n5', 'n6', 'n7', 'n8',
           'n9', 'n10', 'n11', 'n12', 'n13', 'n14'],
          dtype='object')
  • info()查看数据类型
    data_train.info()

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200918191713253.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)

  • 利用 describe() 粗略的查看一些统计性数据
    #利用describe()粗略的查看数据集的各个特征的一些基本统计量
    data_train.describe()

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200918191835646.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)

  • 使用 head()tail() 查看前n行和后n行数据
    data_train.head(3).append(data_train.tail(3))

2.4 查看数据中的缺失值,唯一值等

2.4.1 查看缺失值

【注意】此处用了format的几种表示形式,注意第一种和python的版本有关系,低于3.7版本的无法使用,可以通过 import sys sys.version 来查看自己的版本

    #字符串前加f作用相当于format
    #isnull为空显示true不为空显示false
    #any函数用法https://www.cjavapy.com/article/297/ 返回为真的
    print(f'共有 {data_train.isnull().any().sum()}列存在缺失')
    #字符串前加f作用相当于format
    #isnull为空显示true不为空显示false
    #any函数用法https://www.cjavapy.com/article/297/ 返回为真的
    print('存在缺失的列的个数为:{}'.format(data_train.isnull().any().sum()))
    print('存在缺失的列的个数为:%s' % format(data_train.isnull().any().sum()))

经过上面操作可以发现训练集有22列特征存在缺失值,可以进一步的去统计下那些特征的缺失值大于50%,对于缺失大于50%的特征在后续的处理中我们可以考虑直接舍弃

    #data_train.isnull().sum()统计每列缺失值的个数
    #data_train.isnull().sum()/len(data_train)缺失值个数占总量的多少
    have_null_fea_dict=(data_train.isnull().sum()/len(data_train)).to_dict()
    #创建一个字典来统计
    fea_null_moreThanHalf={}
    #Python 字典(Dictionary) items() 函数以列表返回可遍历的(键, 值) 元组数组
    for key,value in have_null_fea_dict.items():
        if value>0.5:
            fea_null_moreThanHalf[key]=value
    
    fea_null_moreThanHalf

结果为 {} ,即在本训练集中没有缺失超过50%的特征

通过可视化直观缺失特征及缺失率

    # nan可视化
    missing=data_train.isnull().sum()/len(data_train) #计算缺失率
    missing=missing[missing>0]  #计算缺失率大于0的,即存在缺失的
    
    #重新排序
    missing.sort_values(inplace=True)
    
    #绘制条形图
    missing.plot.bar()

![在这里插入图片描述](https://img-blog.csdnimg.cn/2020091820051239.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)
通过条形图我们可以明显的看出缺失率最高的是n11,最高的缺失率在0.08左右
【注意】

  • 纵向了解哪些列存在 “nan”, 并可以把nan的个数打印,主要的目的在于查看某一列nan存在的个数是否真的很大,如果nan存在的过多,说明这一列对label的影响几乎不起作用了,可以考虑删掉。如果缺失值很小一般可以选择填充。
  • 可以横向比较,如果在数据集中,某些样本数据的大部分列都是缺失的且样本足够的情况下可以考虑删除。

2.4.2 查看唯一值

通过 df.nunique()<=1 可以提取出唯一值

    #查看训练集中只有一个值的特征
    ##此处用到了一行for循环
    '''
    一行for循环外面加上[ ],可以让这一行语句作为一个迭代器使用,返回的是一个list类型。
    需要注意的是只是将本来属于最后一行的内容提前
    '''
    one_value_fea=[col for col in data_train.columns if data_train[col].nunique()<=1]

结果为 ['policyCode']

    #查看测试集中只有一个值的特征
    one_value_fea_test = [col for col in data_test_a.columns if data_test_a[col].nunique() <= 1]

结果为 ['policyCode']
经过上面结果可以看出不管训练集还是测试集 ['policyCode'] 的值都是唯一的,所以在后续训练中我们可以直接舍弃这个属性

【总结】

  • 训练集中47列数据中有22列有缺失值,但是没有缺失超过一半以上的(最多为0.08),
  • policyCode 公开可用的策略_代码=1新产品不公开可用的策略_代码=2 这个属性在测试集和训练集中都只有一个值为1

2.5 查看数值特征与对象类型

2.5.1 数值特征

  • 特征一般都是由 类别型特征数值型特征 组成,而数值型特征又分为 连续型和离散型
  • 类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。
  • 数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。

2.5.1.1 查看数值特征(是数值型还是类别型)

  • 查看数值型
    #查看数值类特征(即选择所有特征排除掉object的)
    #根据数据类型选择特征 select_dtypes(include=['']/exclude=[])
    numerical_fea=list(data_train.select_dtypes(exclude=['object']).columns)
    numerical_fea
    

结果为

    ['id',
     'loanAmnt',
     'term',
     'interestRate',
     'installment',
     'employmentTitle',
     'homeOwnership',
     'annualIncome',
     'verificationStatus',
     'isDefault',
     'purpose',
     'postCode',
     'regionCode',
     'dti',
     'delinquency_2years',
     'ficoRangeLow',
     'ficoRangeHigh',
     'openAcc',
     'pubRec',
     'pubRecBankruptcies',
     'revolBal',
     'revolUtil',
     'totalAcc',
     'initialListStatus',
     'applicationType',
     'title',
     'policyCode',
     'n0',
     'n1',
     'n2',
     'n2.1',
     'n4',
     'n5',
     'n6',
     'n7',
     'n8',
     'n9',
     'n10',
     'n11',
     'n12',
     'n13',
     'n14']

  • 查看类别型
    #方法一 利用select选择类型为object的
    category_fea=list(data_train.select_dtypes(include=['object']).columns)
    category_fea

    #方法二使用lambda函数
    #filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回一个迭代器对象,如果要转换为列表,可以使用 list() 来转换。
    #该接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。
    category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))
    category_fea

结果为

    ['grade', 'subGrade', 'employmentLength', 'issueDate', 'earliesCreditLine']

可以用 df.属性名 或者 df['属性名'] 进一步查看属性中的各个取值

2.5.1.2 划分数值型变量中的连续变量和离散型变量

    def get_numerical_serial_fea(data,feas):#data是原始数据,feas是前面已经提取的数值型变量
        numerical_serical_fea=[]#连续型数值变量
        numerical_noserial_fea=[]#no serial 离散型数值变量
        for fea in feas:  
            temp=data[fea].nunique()
            if temp<=10: #如果类别小于等于10便认为是离散型,否则是连续型
                numerical_noserial_fea.append(fea)
                continue
            numerical_serical_fea.append(fea)
        return numerical_serical_fea,numerical_noserial_fea
    
    numerical_serical_fea,numerical_noserial_fea=get_numerical_serial_fea(data_train,numerical_fea)

连续型变量 numerical_serial_fea

    ['id',
     'loanAmnt',
     'interestRate',
     'installment',
     'employmentTitle',
     'annualIncome',
     'purpose',
     'postCode',
     'regionCode',
     'dti',
     'delinquency_2years',
     'ficoRangeLow',
     'ficoRangeHigh',
     'openAcc',
     'pubRec',
     'pubRecBankruptcies',
     'revolBal',
     'revolUtil',
     'totalAcc',
     'title',
     'n0',
     'n1',
     'n2',
     'n2.1',
     'n4',
     'n5',
     'n6',
     'n7',
     'n8',
     'n9',
     'n10',
     'n13',
     'n14']

离散型变量 numerical_noserial_fea

    ['term',
     'homeOwnership',
     'verificationStatus',
     'isDefault',
     'initialListStatus',
     'applicationType',
     'policyCode',
     'n11',
     'n12']

2.5.1.3 离散型变量分析

    for i in numerical_noserial_fea:
        print('==查看离散型变量【{}】属性的分布=='.format(i))
        print(data_train[i].value_counts(),'\n')

结果为

    ==查看离散型变量【term】属性的分布==
    3    606902
    5    193098
    Name: term, dtype: int64 
    
    ==查看离散型变量【homeOwnership】属性的分布==
    0    395732
    1    317660
    2     86309
    3       185
    5        81
    4        33
    Name: homeOwnership, dtype: int64 
    
    ==查看离散型变量【verificationStatus】属性的分布==
    1    309810
    2    248968
    0    241222
    Name: verificationStatus, dtype: int64 
    
    ==查看离散型变量【isDefault】属性的分布==
    0    640390
    1    159610
    Name: isDefault, dtype: int64 
    
    ==查看离散型变量【initialListStatus】属性的分布==
    0    466438
    1    333562
    Name: initialListStatus, dtype: int64 
    
    ==查看离散型变量【applicationType】属性的分布==
    0    784586
    1     15414
    Name: applicationType, dtype: int64 
    
    ==查看离散型变量【policyCode】属性的分布==
    1.0    800000
    Name: policyCode, dtype: int64 
    
    ==查看离散型变量【n11】属性的分布==
    0.0    729682
    1.0       540
    2.0        24
    4.0         1
    3.0         1
    Name: n11, dtype: int64 
    
    ==查看离散型变量【n12】属性的分布==
    0.0    757315
    1.0      2281
    2.0       115
    3.0        16
    4.0         3
    Name: n12, dtype: int64 

【总结】通过上面查看可以看出

  • policyCode 属性无用,因为全是一个值
  • n11,n12 属性相差过大,不用再分析(其中一类占到了近90%)

2.5.1.4 连续型变量分析

这里使用了 pandas.melt 来实现数据的逆透视,以及 season.FaceGrid 实现可视化

  • pandas.melt

【基本格式】

    pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)

【参数解释】

参数 含义
frame 要处理的数据集。
id_vars 不需要被转换的列名。
value_vars 需要转换的列名,如果剩下的列全部都要转换,就不用写了。
var_name、value_name 是自定义设置对应的列名。
col_level 如果列是MultiIndex,则使用此级别。

相关用法可参考: [ https://blog.csdn.net/maymay_/article/details/80039677

](https://blog.csdn.net/maymay_/article/details/80039677)

  • season.FaceGrid
    FacetGrid当您想要在数据集的子集中分别可视化变量的分布或多个变量之间的关系时,该类非常有用。
    基本工作流程是FacetGrid使用数据集和用于构造网格的变量初始化对象。然后,可以通过调用FacetGrid.map()或将一个或多个绘图函数应用于每个子集
    FacetGrid.map_dataframe()。最后,可以使用其他方法调整绘图,以执行更改轴标签,使用不同刻度或添加图例等操作
    【基本格式】
    class seaborn.FacetGrid(data, row=None, col=None, hue=None, col_wrap=None, sharex=True, sharey=True, height=3, aspect=1, palette=None, row_order=None, col_order=None, hue_order=None, hue_kws=None, dropna=True, legend_out=True, despine=True, margin_titles=False, xlim=None, ylim=None, subplot_kws=None, gridspec_kws=None, size=None)

【参数解释】

参数 含义
data DataFrame处理后的(“长格式”)dataframe数据,其中每一列都是一个变量(特征),每一行都是一个样本
row, col, hue strings 定义数据子集的变量,这些变量将在网格的不同方面绘制。
col_wrap nt, optional这个意思是图网格列维度限制,比如col_wrap

=3,那么在这个画布里最多只能画3列。行不限制,这样就限制了列的个数。
sharex=True, sharey=False | 是否共享x轴或者y轴

相关用法参考: [ Seaborn学习(一)------- 构建结构化多绘图网格(FacetGrid()、map())详解

](https://blog.csdn.net/weixin_42398658/article/details/82960379?biz_id=102&utm_term=FacetGrid&utm_medium=distribute.pc_search_result.none-
task-blog-2allsobaiduweb~default-1-82960379&spm=1018.2118.3001.4187)

下面通过上面介绍的两个库实现连续型数值数据的可视化

    #每个数字特征得分布可视化,查看了连续性数据的分布
    f = pd.melt(data_train, value_vars=numerical_serical_fea)
    g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False) #先给图占位置
    g = g.map(sns.distplot, "value") #作图,得到的是每个值的概率
    
    #字符串self.data中的列名,用于标识具有要绘制的数据的变量。 每个变量的数据按照调用中指定的顺序传递给`func`。

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200918204801741.jpg?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)

【扩展】

  • 查看某一个数值型变量的分布,查看变量是否符合正态分布,如果不符合正太分布的变量可以log化后再观察下是否符合正态分布。
  • 如果想统一处理一批数据变标准化 必须把这些之前已经正态化的数据提出
  • 正态化的原因:一些情况下正态非正态可以让模型更快的收敛,一些模型要求数据正态(eg.
    GMM、KNN),保证数据不要过偏态即可,过于偏态可能会影响模型预测结果。

绘制贷款金额分布

    #Ploting Transaction Amount Values Distribution
    #设置图像大小
    plt.figure(figsize=(16,12))
    plt.suptitle('Transaction Values Distribution', fontsize=22)
    plt.subplot(221)
    sub_plot_1 = sns.distplot(data_train['loanAmnt'])
    sub_plot_1.set_title("loanAmnt Distribuition", fontsize=18)
    sub_plot_1.set_xlabel("")
    sub_plot_1.set_ylabel("Probability", fontsize=15)
    
    #log后的图像
    plt.subplot(222)
    sub_plot_2 = sns.distplot(np.log(data_train['loanAmnt']))
    sub_plot_2.set_title("loanAmnt (Log) Distribuition", fontsize=18)
    sub_plot_2.set_xlabel("")
    sub_plot_2.set_ylabel("Probability", fontsize=15)

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200918205611170.jpg?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)

2.5.1.5 非数值型类别变量分析

在前面的代码中已经获得了类别变量名并将其保存到了 category_fea

    for i in category_fea:
        print('==查看非数值类别变量【{}】属性的分布=='.format(i))
        print(data_train[i].value_counts(),'\n')

结果为

    ==查看非数值类别变量【grade】属性的分布==
    B    233690
    C    227118
    A    139661
    D    119453
    E     55661
    F     19053
    G      5364
    Name: grade, dtype: int64 
    
    ==查看非数值类别变量【subGrade】属性的分布==
    C1    50763
    B4    49516
    B5    48965
    B3    48600
    C2    47068
    C3    44751
    C4    44272
    B2    44227
    B1    42382
    C5    40264
    A5    38045
    A4    30928
    D1    30538
    D2    26528
    A1    25909
    D3    23410
    A3    22655
    A2    22124
    D4    21139
    D5    17838
    E1    14064
    E2    12746
    E3    10925
    E4     9273
    E5     8653
    F1     5925
    F2     4340
    F3     3577
    F4     2859
    F5     2352
    G1     1759
    G2     1231
    G3      978
    G4      751
    G5      645
    Name: subGrade, dtype: int64 
    
    ==查看非数值类别变量【employmentLength】属性的分布==
    10+ years    262753
    2 years       72358
    < 1 year      64237
    3 years       64152
    1 year        52489
    5 years       50102
    4 years       47985
    6 years       37254
    8 years       36192
    7 years       35407
    9 years       30272
    Name: employmentLength, dtype: int64 
    
    ==查看非数值类别变量【issueDate】属性的分布==
    2016-03-01    29066
    2015-10-01    25525
    2015-07-01    24496
    2015-12-01    23245
    2014-10-01    21461
    2016-02-01    20571
    2015-11-01    19453
    2015-01-01    19254
    2015-04-01    18929
    2015-08-01    18750
    2015-05-01    17119
    2016-01-01    16792
    2014-07-01    16355
    2015-06-01    15236
    2015-09-01    14950
    2016-04-01    14248
    2014-11-01    13793
    2015-03-01    13549
    2016-08-01    13301
    2015-02-01    12881
    2016-07-01    12835
    2016-06-01    12270
    2016-12-01    11562
    2016-10-01    11245
    2016-11-01    11172
    2014-05-01    10886
    2014-04-01    10830
    2016-05-01    10680
    2014-08-01    10648
    2016-09-01    10165
                  ...  
    2010-01-01      355
    2009-10-01      305
    2009-09-01      270
    2009-08-01      231
    2009-07-01      223
    2009-06-01      191
    2009-05-01      190
    2009-04-01      166
    2009-03-01      162
    2009-02-01      160
    2009-01-01      145
    2008-12-01      134
    2008-03-01      130
    2008-11-01      113
    2008-02-01      105
    2008-04-01       92
    2008-01-01       91
    2008-10-01       62
    2007-12-01       55
    2008-07-01       52
    2008-08-01       38
    2008-05-01       38
    2008-06-01       33
    2007-10-01       26
    2007-11-01       24
    2007-08-01       23
    2007-07-01       21
    2008-09-01       19
    2007-09-01        7
    2007-06-01        1
    Name: issueDate, Length: 139, dtype: int64 
    
    ==查看非数值类别变量【earliesCreditLine】属性的分布==
    Aug-2001    5567
    Aug-2002    5403
    Sep-2003    5403
    Oct-2001    5258
    Aug-2000    5246
    Sep-2004    5219
    Sep-2002    5170
    Aug-2003    5116
    Oct-2000    5034
    Oct-2002    5034
    Oct-2003    4969
    Aug-2004    4904
    Nov-2000    4798
    Sep-2001    4787
    Sep-2000    4780
    Nov-1999    4773
    Oct-1999    4678
    Oct-2004    4647
    Sep-2005    4608
    Jul-2003    4586
    Nov-2001    4514
    Aug-2005    4494
    Jul-2001    4480
    Aug-1999    4446
    Sep-1999    4441
    Dec-2001    4379
    Jul-2002    4342
    Aug-2006    4283
    Mar-2001    4268
    May-2001    4223
                ... 
    Jun-1952       2
    Aug-1950       2
    Oct-1958       2
    Jul-1959       2
    Nov-1962       2
    Sep-1960       2
    Apr-1955       2
    Oct-1954       1
    Nov-1953       1
    Jun-1958       1
    Dec-1951       1
    Oct-1957       1
    Oct-2015       1
    Mar-1957       1
    Mar-1958       1
    Aug-1958       1
    Aug-1946       1
    Sep-1953       1
    Dec-1960       1
    May-1957       1
    Apr-1958       1
    Nov-1954       1
    Jul-1955       1
    Mar-1962       1
    Aug-1955       1
    Sep-1957       1
    Feb-1960       1
    May-1960       1
    Jan-1944       1
    Jan-1946       1
    Name: earliesCreditLine, Length: 720, dtype: int64 

【总结】
上面通过 value_counts() 等函数看了特征属性的分布,但是图表是概括原始信息最便捷的方式。

同一份数据集,在不同的尺度刻画上显示出来的图形反映的规律是不一样的。


2.6 变量分布可视化

2.6.1 单一变量分布可视化

此处对就业年限进行可视化

    plt.figure(figsize=(8,8))
    #dropna该函数主要用于滤除缺失数据。
    #如果是Series,则返回一个仅含非空数据和索引值的Series,默认丢弃含有缺失值的行
    sns.barplot(data_train['employmentLength'].value_counts(dropna=False)[:20],
               data_train['employmentLength'].value_counts(dropna=False).keys()[:20])

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200918205941814.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)

2.6.2 根据y值不同可视化x某个特征的分布

  • 查看类别型变量在不同值上的分布
    #违约
    train_loan_fr = data_train.loc[data_train['isDefault'] == 1]
    #没有违约
    train_loan_nofr = data_train.loc[data_train['isDefault'] == 0]

    fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 8))
    train_loan_fr.groupby('grade')['grade'].count().plot(kind='barh', ax=ax1, title='Count of grade fraud')
    train_loan_nofr.groupby('grade')['grade'].count().plot(kind='barh', ax=ax2, title='Count of grade non-fraud')
    train_loan_fr.groupby('employmentLength')['employmentLength'].count().plot(kind='barh', ax=ax3, title='Count of employmentLength fraud')
    train_loan_nofr.groupby('employmentLength')['employmentLength'].count().plot(kind='barh', ax=ax4, title='Count of employmentLength non-fraud')
    plt.show()

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200918210231910.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)
左上图示违约的人,可以看出带看等级为C的人违约最多
右上图是没有违约的人,可以看出B等级人最多
左下图示违约的人,可以看出工作19年以上的人违约的最多
右下角是没有违约的人,工作十年的人没有违约的最多

  • 连续型变量在不同y值上的分布
    fig, ((ax1, ax2)) = plt.subplots(1, 2, figsize=(15, 6))
    data_train.loc[data_train['isDefault'] == 1] \
        ['loanAmnt'].apply(np.log) \
        .plot(kind='hist',#画直方图
              title='Log Loan Amt - Fraud',
              color='r',
              xlim=(-3, 10),
             ax= ax1)
    data_train.loc[data_train['isDefault'] == 0] \
        ['loanAmnt'].apply(np.log) \
        .plot(kind='hist',
              title='Log Loan Amt - Not Fraud',
              color='b',
              xlim=(-3, 10),
             ax=ax2)

![在这里插入图片描述](https://img-blog.csdnimg.cn/2020091821034614.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)

    total = len(data_train)
    total_amt = data_train.groupby(['isDefault'])['loanAmnt'].sum().sum() #计算出了贷款总和
    
    
    plt.figure(figsize=(12,5))
    plt.subplot(121)##1代表行,2代表列,所以一共有2个图,1代表此时绘制第一个图。
    plot_tr = sns.countplot(x='isDefault',data=data_train)#data_train‘isDefault’这个特征每种类别的数量**
    plot_tr.set_title("Fraud Loan Distribution \n 0: good user | 1: bad user", fontsize=14)
    plot_tr.set_xlabel("Is fraud by count", fontsize=16)
    plot_tr.set_ylabel('Count', fontsize=16)
    for p in plot_tr.patches:
        height = p.get_height()
        plot_tr.text(p.get_x()+p.get_width()/2.,
                height + 3,
                '{:1.2f}%'.format(height/total*100),
                ha="center", fontsize=15) 
        
    percent_amt = (data_train.groupby(['isDefault'])['loanAmnt'].sum())
    percent_amt = percent_amt.reset_index()
    plt.subplot(122)
    plot_tr_2 = sns.barplot(x='isDefault', y='loanAmnt',  dodge=True, data=percent_amt)
    plot_tr_2.set_title("Total Amount in loanAmnt  \n 0: good user | 1: bad user", fontsize=14)
    plot_tr_2.set_xlabel("Is fraud by percent", fontsize=16)
    plot_tr_2.set_ylabel('Total Loan Amount Scalar', fontsize=16)
    for p in plot_tr_2.patches:
        height = p.get_height()
        plot_tr_2.text(p.get_x()+p.get_width()/2.,
                height + 3,
                '{:1.2f}%'.format(height/total_amt * 100),
                ha="center", fontsize=15)     
    

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200918210519868.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)

2.7 时间数据处理及查看

  • 转化为datetime格式
    #训练集转化为时间格式 issueDate特征表示数据日期离集中日期最早的日期
    data_train['issueDate'] = pd.to_datetime(data_train['issueDate'],format='%Y-%m-%d')
    data_train['issueDate']

  • 计算离数据集中最早日期的日期(2007-06-01)的天数
    #计算离数据集中最早日期的日期(2007-06-01)的天数
    import datetime
    startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
    from IPython.core.interactiveshell import InteractiveShell
    InteractiveShell.ast_node_interactivity = "all"
    startdate
    data_train['issueDateDT'] = data_train['issueDate'].apply(lambda x: x-startdate).dt.days
    data_train['issueDateDT']

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200918210703187.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)

    测试集转化成时间格式
    data_test_a['issueDate'] = pd.to_datetime(data_train['issueDate'],format='%Y-%m-%d')
    startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
    data_test_a['issueDateDT'] = data_test_a['issueDate'].apply(lambda x: x-startdate).dt.days

  • 查看训练集和测试集的时间分布
    plt.hist(data_train['issueDateDT'],label='train')
    plt.hist(data_test_a['issueDateDT'],label='test')
    plt.legend()
    plt.title('Distribution of issueDateDT dates');
    #train 和 test issueDateDT 日期有重叠 所以使用基于时间的分割进行验证是不明智的

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200918210753296.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)
由于train 和 test issueDateDT 日期有重叠 所以使用基于时间的分割进行验证是不明智的


2.7 透视图

    #透视图 索引可以有多个,
    #“columns(列)”是可选的,
    #聚合函数aggfunc最后是被应用到了变量“values”中你所列举的项目上。
    pivot = pd.pivot_table(data_train, index=['grade'], columns=['issueDateDT'], values=['loanAmnt'], aggfunc=np.sum)
    pivot

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200918210840148.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E4Njg5NzU2,size_16,color_FFFFFF,t_70#pic_center)

2.8 使用pandas_profiling生成数据报告

安装失败orz 具体跑出来的结果等我安好了再放上

    import pandas_profiling
    
    pfr = pandas_profiling.ProfileReport(data_train)
    pfr.to_file("./example.html")

在这里插入图片描述

posted @ 2021-06-29 17:36  老酱  阅读(510)  评论(0编辑  收藏  举报