开始挖掘数据前,该如何认识我们手上的数据?
(自己的认知与理解有限,文中错误、不当之处还请诸位不吝指出,大家共同进步)
数据是重要、应该被充分利用的,这一点大家都是认同的,就像我们的个人信息(尤其是手机号)被肆意的售卖,各种推销、诈骗电话屡见不鲜,虽然我们对此大为光火,但是对推销员和诈骗犯来说,人家确实利用到了数据,而且总能钓上几条鱼。作为一名数据挖掘工作者来说,可能没法在一线搜集数据,但是充分理解到手的数据是接下来一切工作的前提,否则可能会白忙活,甚至得到错误的结论。本文中,我打算从数据属性、属性测量、数据收集(采样)、数据预处理这四个方面谈一下自己的理解。
1.数据属性
我们做的所有工作,目的是分析、解决问题,数据搜集也应该以此作为出发点,具体一点就是应该收集哪些数据,比如我们是做疾病预测、预防的,就应该收集涉及健康方面的数据,再具体一点,要做呼吸道疾病相关的预测,则可以收集空气质量数据、呼吸疾病病史信息、咳嗽症状等数据,而不是有没有得灰指甲这种信息,对于一条数据记录来说,空气质量、呼吸疾病病史等都可以称为数据的属性(有的地方也成为特征),因此对于我们的研究目的来说,选择准确的数据属性非常重要,这里“准确”一次的含义,我想至少包含两方面,一个是选择的属性需要与研究目的相关,另外一个就是属性的选择不要冗余,很多属性之间是具有高度相关性的(尽管我们在大多数时候,都是假设属性之间是独立的,毕竟这能大大简化计算过程,不可避免的则会丢失部分准确性),都选择的话可能对改进分析结果帮助不大,但是造成的冗余产生计算量影响可能较大。
像疾病预测这样的应用场景,我们有大量的经验和数据可以借鉴(毕竟仅我中华文明就有上下五千年嘛),因此在选择属性方面会容易一些,而有的应用场景,较为准确的选择属性则并不容易(毕竟数据挖掘过程也是一个探索的过程,要都整的那么明明白白的,就没意思了),对于这种情况,我觉得还是先暂时保留候选属性为好,在数据挖掘的过程中再对该属性做进一步分析。
对于数据属性,还有一个需要着重注意的地方,可能属性自身有一些重要的性质(或者说特征),这些性质直接影响该属性上测量数据的可用性、或者准确性,比如时效性,在一些信息、媒体行业中,数据的时效性是很重要的。
2.属性测量
信息都是要汇总到计算机中进行储存、计算的,因此属性测量是必不可少的步骤,测量的过程可以简单理解为“特征--->数值‘’的过程,既然数据要用来计算,因此数值的改变必然会直接影响计算结果,所以属性测量过程还是很重要滴!
人们依据属性测量值所支持的运算方式,将属性归为如下四类:标称型、序数型、区间型和比率型。标称型的数据只支持相异性判断操作(相同或不同),比如身份证ID;序数型的数据扩充了序数比较操作(大于、小于、大于等于和小于等于),比如程度数据(优、良、中、差);区间型数据扩充了加、减操作,比如个数、次数这样的数据;比率型数据扩充了乘、除操作,比如长度,乘法得到面积,除法得到倍数。标称型、序数型统称为定性型数据,区间型和比率型称为定量型数据。认清不同类型数据支持的操作很必要,这便于我们解释一些结论。
认清属性的类别后,测量过程中的误差问题也需要注意。一般结果中的误差包含系统误差和测量误差(当然系统误差不是一定会存在的),系统误差一般是稳定的,但我们不一定能察觉和发现,这需要我们对分析问题、属性的背景有一定了解,或者需要较为合理的测量手段,但是我们最好能解决掉它,然后再进行测量。测量误差则很常见了,就算是标称型的属性,比如身份证ID,你也可能看错一个数字不是。
3.数据收集
在收集数据时,要么收集全部的数据,要是用采样的方式收集部分数据(当然,没有绝对的全部收集说法,区别在于数据量上),虽然现在的分布式系统已经支持海量数据的存储及计算了,但是在很多应用场景中,采样方法仍然很常见。
收集全部的数据简单粗暴,如果条件完全支持这么做,那么当然是最好的,毕竟收集的信息全,但随之而来的是对数据挖掘者的考验了。这里还是重点提一下采样吧。采样时,常常需要考虑的问题是使用怎样的采样方式,理想的情况当然是希望采样的数据能简洁、全面的包含与待分析问题相关的信息,但通常由于我们对待分析问题的认识不够深刻、或者采样方法不合理,做不到这一点(这也是正常的),所以我们只能尽量做到最好。
对待分析问题的认识暂且不谈,这个带有主观性,这里只说采样方法。采样方法有很多种,从大的方面可以分为概率性采样和非概率性采样。概率性采样中不包含采样人员的主观知识,而非概率性采样中则包含了采样人员的主观知识,并且施加干预。举几个例子,比如概率采样中的系统采样与分层采样,在系统采样中,对样本的编号是随机的,而在分层采样中,每一层中的采样也是随机的。而在非概率采样中,采样人员的干预行为则有较强的主观性,比如对某个景区的建设提供一些策略的支持,调查游客的意见,如果采样人员就愿意调查20~30岁年龄段游客的意见,那么这种采样方式就是非概率性采样。
除了采样方式会改变数据所提供的信息,数据的记录方式(数据记录结构)有时也会误增或者丢失部分数据信息。常见的数据记录形式是
很多数据都可以用这种结构记录,比如记录型数据(如属性n对应的数值是多少)、事务型数据(如属性n对应的商品有没有被购买),甚至是文档型数据(如文档中某个词条出现的次数),但是有些场合则不适合用这种结构,比如记录化合物,你不能简单记录为该化合物中包含了哪些原子、这些原子个数是多少,化合物中是存在化学键的,这些化学键包含了重要信息,甚至能决定到底化合物是什么,如果采用以上的记录形式则会丢失信息。
4.数据预处理
数据预处理是一个非常繁琐的过程,则占用很多时间,但是数据预处理的过程又十分重要,其目的就是让输入计算过程的数据更可用。呈现在我们面前的数据是那么“缤纷多彩”,绝对会让我们惊喜的。。。
预处理的方式有很多,不是所有的数据都需要处理,处理方式的选择依据实际情况来,常见的有以下方法:空值的处理(丢弃还是估计,估计时又采用哪种估计方式,是线性插值还是用中位值等等等)、数据类型转换(数值型还是字符型等等)、值范围限制(有些值记录错误,或者有些范围外的值我们不需要)、归一化、离散化、区间化、规范化、二元化、数据拼接、合并等等等,方式非常多了,我准备后面单独写一篇博客详细说明数据预处理问题。