特征工程系列:(一)特征理解
定量数据本质上是数值,应该是衡量某样东西的数量,一般是浮点型
定性数据本质上是类别,应该是描述某样东西的性质,一般是字符型数据
三种变量
1) 舱门(S,C,Q)
三种取值S,C,Q是相互独立的,彼此之间完全没有联系,表达的是S≠C≠Q的概念。这是名义变量。
2) 学历(小学,初中,高中)
三种取值不是完全独立的,我们可以明显看出,在性质上可以有高中>初中>小学这样的联系,学历有高低,但是学历取值之间却不是可以计算的,我们不能说小学 + 某个取值 = 初中。这是有序变量。
3) 体重(>45kg,>90kg,>135kg)
各个取值之间有联系,且是可以互相计算的,比如120kg - 45kg = 90kg,分类之间可以通过数学计算互相转换。这是有距变量。
数据的四个等级
定类等级(nominal level)
例如,血型(A、B、O和AB型)、动物物种和人名。这些数据都是定性的
可以使用value_count进行计数
定序等级(ordinal level)
定序等级的数据可以自然排序,这意味着,可以认为列中的某些数据比其他数据更好或更大。比如,考试的乘积F、D、C、B、A,或者评分。
定距等级(interval level)
数值数据不仅可以像定序等级的数据一样排序,而且值之间的差异也有意义,如果美国得克萨斯州的温度是32℃,阿拉斯加州的温度是4℃,那么可以计算出32-4=28℃的温差。在定距等级,我们不仅可以对值进行排序和比较,而且可以加减。
也可以计算 算术平均数(就是均值)和标准差
定比等级(ratio level)
在这个等级上,可以说我们拥有最高程度的控制和数学运算能力。和定距等级一样,我们在定比等级上处理的也是定量数据。这里不仅继承了定距等级的加减运算,而且有了一个绝对零点的概念,可以做乘除运算。
比如,工资,金钱数量等
本文主要参考自下面两本书:
《特征工程入门与实践》
《精通特征工程》