数据挖掘概念与技术-第2章

【导读】今天我们继续以《数据挖掘概念与技术》（机械工业出版社,作者：Jiawei Han;Micheline Kamber；翻译：范明 / 孟小峰)一书为基础，配合Python代码给大家介绍数据属性、度量和基本统计描述图形。今天我们所涉及的内容依然非常基础，但却是后续不断会用到的一些概念和知识。笔者也将书中内容提炼成了层次更加清晰的思维导图, 并在jupyter notebook 中使用python书写了对应代码。你可以在我们的公众号"数据臭皮匠" 中回复"第二章xmind", 获取xmind格式的思维导图。回复"第二章代码"，获取本文的jupyter代码

1、数据属性

书中称数据属性。分为标称属性、序数属性、数值属性。尽管每个出处的叫法可能不一样，但其实就是我们很熟悉的数据分类的概念，下面大家可以感受下

标称属性

类别型属性,不同类别间无法比较顺序, 如:职业类别, 颜色类别等

二元属性

只有两个类别, 0表示属性不出现, 1表示出现如,是否抽烟等

对称的二元属性

两种状态有相同的价值,携带相同的权重,如性别的男女属于对称的二元属性(一般标识性别时男为1,女为0)

非对称的二元属性

两种状态有着不一样的权重, 如艾滋病病毒化验结果,1 为阳性,0 为阴性,通常使用1表示重要的状态(HIV阳性), 另一个用0表示(HIV阴性)

序数属性

可以排先后顺序, 单元素之间的差值无意义如, 大中小, 很满意, 满意, 中性,不满意等

区间标度属性

先后顺序, 差值都有意义, 但倍数无意义的属性, 如温度,可以说10度比5度高5度, 但无法说10度是5度的2倍, 因为0度不是表示没有温度。

比率标度属性

具有固定零点的数值属性,这时候,先后排序,差值，倍数都是有意义的。如重量，速度等（速度4m/s 是2m/s 的两倍

2、数值的中心趋势度量

算术均值

令x1,x2... xn 为某一属性的n个观测值, 其均值为：

(x1+x2+...+xn)/n

加权平均

对于i = 1,2,.... n , 每个值xi 可以与一个权重wi 相关联,这时可以计算加权平均数：

(w1x1+w2x2+...+wnxn)/(w1+w2+...+wn)

截尾平均

截尾均值为丢弃高低极端值后的均值, 如公司的平均工资可能被几个高收入的经理拉高, 截尾均值能够抵消少数异常值的影响, 如计算平均工资时, 可以在计算均值之前先去掉前后2%(比例自己定义,但应避免截去太大比例, 因为会丢失太多信息)

中位数

先将N个数值按顺序排列, 中间的那个值就是中位数, 如果N为奇数,中位数为该有序集的中间值, 如果N为偶数, 一般取中间两个值的均值，中位数可以避免极端值对均值的影响, 一般收入中位数比收入均值更能代表总体收入水平

众数

数据集的众数是指出现最频繁的值, 可以对定性和定量属性确定众数

中列数

中列数是数据最大值和最小值的均值, 即(max() + min())/2

3、数据的分散程度度量

极差

设x1,x2...xn 为一个集合, 该集合的极差为最大值与最小值之差

四分位数

有三个点,将数据划分成相同大小的4个数据集合, 所以第一个四分位数Q1为第25%处,第二个百分位数Q2为50%处, 第三个分位数Q3为第75%处

四分位数极差

Q3-Q1 即, 第三个四分位数与第一个四分位数的差值

五数概括

由min, Q1,median, Q3,max 组成

即, 最小值, 四分位数Q1, 中位数,四分位数Q3和最大值组成

盒图

盒的端点在四分位上(Q1,Q3) , 中位数用盒内的线标记, 盒外的两条胡须延伸到最大值和最小值, 如果最大值比Q3大1.5倍的IQR(Q3-Q1) , 胡须延伸至1.5被IQR处, 最小值小于Q1 的1.5倍IQR, 向下的胡须延伸至1.5被IQR处, 超过胡须的点,单独的绘出(一般被认为离群点)

标准差和方差

标准差是方差开根号的结果, 两者都可以指出数据分布的离散程度, 低标准差意味着数据更靠近均值, 高标准差意味着数据散布在较大的值域中。当数据集中数值完全一样时，标准差为0，否则标准差大于0 ，重要的是，可以证明至少(1-1/k^2) * 100% 的观测值不超过k个标准差。