特征工程系列:(一)特征理解

定量数据本质上是数值,应该是衡量某样东西的数量,一般是浮点型

定性数据本质上是类别,应该是描述某样东西的性质,一般是字符型数据

三种变量

1) 舱门(S,C,Q)

三种取值S,C,Q是相互独立的,彼此之间完全没有联系,表达的是S≠C≠Q的概念。这是名义变量。

2) 学历(小学,初中,高中)

三种取值不是完全独立的,我们可以明显看出,在性质上可以有高中>初中>小学这样的联系,学历有高低,但是学历取值之间却不是可以计算的,我们不能说小学 + 某个取值 = 初中。这是有序变量。

3) 体重(>45kg,>90kg,>135kg)

各个取值之间有联系,且是可以互相计算的,比如120kg - 45kg = 90kg,分类之间可以通过数学计算互相转换。这是有距变量。

数据的四个等级

定类等级(nominal level)

例如,血型(A、B、O和AB型)、动物物种和人名。这些数据都是定性的

可以使用value_count进行计数

定序等级(ordinal level)

定序等级的数据可以自然排序,这意味着,可以认为列中的某些数据比其他数据更好或更大。比如,考试的乘积F、D、C、B、A,或者评分。

定距等级(interval level)

数值数据不仅可以像定序等级的数据一样排序,而且值之间的差异也有意义,如果美国得克萨斯州的温度是32℃,阿拉斯加州的温度是4℃,那么可以计算出32-4=28℃的温差。在定距等级,我们不仅可以对值进行排序和比较,而且可以加减。

也可以计算 算术平均数(就是均值)和标准差

定比等级(ratio level)

在这个等级上,可以说我们拥有最高程度的控制和数学运算能力。和定距等级一样,我们在定比等级上处理的也是定量数据。这里不仅继承了定距等级的加减运算,而且有了一个绝对零点的概念,可以做乘除运算。

比如,工资,金钱数量等

本文主要参考自下面两本书:

《特征工程入门与实践》
《精通特征工程》

posted @ 2021-07-12 23:56  Neo0oeN  阅读(255)  评论(0编辑  收藏  举报