02_数据探索
1.数据类型
离散变量:
值为整数(计数)的变量称为离散变量。例如,一个顾客在超市购买的商品数量是离散的。客户可以购买1件、25件或50件商品,但不能购买3.7件商品。它总是一个整数。以下是离散变量的例子:
- 借款人的活跃银行帐户数目(1,4,7,…)
- 家庭宠物的数量
- 家庭中孩子的数量
现实中我们可能对同一种variable可以用不同的type表示。例如“失信状态”中可以用1,2,3来表示失信次数,也可以用True,False表示是否失信。我们在数据清洗过程中可能要转换相应的数据类型。
时间变量:
一种特殊类型的分类变量是那些不采用传统标签,如颜色(蓝色、红色)或城市(伦敦、曼彻斯特),而是采用日期作为值的变量。例如,出生日期(' 290 -08-1987','12-01-2012')或申请时间('2016- 12月','2013- 3月')。Datetime变量可以只包含日期,也可以只包含时间,也可以只包含日期和时间。通常情况下,我们不会与一个日期变量作为分类变量,因为各种各样的原因:日期变量通常包含一个巨大数量的单独的类别,这将大幅扩大特征空间日期变量让我们获取更多的信息从数据集预处理以正确的方式另外,通常,日期变量将包含日期不存在的数据集,我们用来训练的机器学习算法。实际上,它将包含放置在未来的日期,与我们用来训练的数据集中的日期相关。因此,机器学习模型将不知道如何处理它们,因为它在训练时从未见过它们。(一般可以将时间划分为几个时间段)
混合变量:
混合变量是那些值同时包含数字和标签的变量。由于各种原因,变量可以混合使用。例如,当信用机构收集和存储用户的财务信息时,它们存储的变量值通常是数字。然而,在某些情况下,由于不同的原因,信用机构不能为某个用户检索信息。在这种情况下,信用机构所做的就是用不同的代码或“标签”对每个不同的原因进行编码,因为它们未能检索到信息。像这样,它们生成混合类型变量。当可以检索值时,这些变量包含数字,否则就包含标签。例如,考虑变量'number_of_open_accounts'。它可以取任意数字,表示借款人不同财务账户的数量。有时,由于各种原因,某些借款人可能无法获得信息。每个原因都用不同的字母编码,例如:“a”:不能识别此人,“B”:没有相关数据,“C”:此人似乎没有任何开户。
2.单变量分析
对于每个单变量,我们要寻找数据的一些特点
3.多变量分析
描述数据在两个或者更多特征之间的关系
- Scatter Plot:是一种图表或数学图表,使用笛卡尔坐标来显示一组数据的两个变量的值。如果点的图形从左下角向右上角倾斜,则表示所研究的变量之间存在正相关关系。如果圆点的图案从左上角向右下角倾斜,则表示负相关
- Correlation plot :它用于同时研究多个变量之间的相关性,并在数据表中突出显示最相关的变量。
- Heat map: 是数据的图形表示,其中矩阵中包含的各个值用颜色表示