「数据挖掘入门系列」数据挖掘基础
伴随着信息化系统建设的发展,各行各业的中大型企业都存储了大量的业务数据。很多的企业想要通过对这些数据的分析,来发现新的商机以及从这些数据中找到提高盈利的方法。大部分的企业,都是凭借管理人员的自身个人经验来开展这项工作。如果有一套系统,能够自动地或者半自动地发现相关的知识和解决方案,这样将会有效地提高企业的决策水平和竞争能力。从大量数据中挖掘出隐含的、未知的、对决策有价值的信息的方法、工具以及工作过程,就是数据挖掘。通过数据挖掘可以在这些数据中找到其中的规律、发现数据之间的关系。数据挖掘是统计学、数据库技术和人工智能的结合产物。
数据挖掘实施步骤
一般的数据挖掘的实施步骤通过以下几点来进行:
- 明确需求
- 数据抽样
- 数据探索
- 数据预处理
- 数据挖掘建模
- 模型评估
明确需求
在开展数据挖掘开发之前,要确定用户的需求是什么。也就是说,数据挖掘系统开发完了之后,能够达到什么样的效果呢?所以,此阶段需要去了解客户的业务背景、业务过程,弄清楚客户的真正需求。
例如:针对用户进行推荐、对销售数据进行预测分析等等。
数据抽样
真实的企业环境中,往往存在多种多样的数据。不是所有的数据都跟数据挖掘系统有关,我们需要从这些大量数据走过来,抽取到与目标相关的数据子集,从而减少数据处理量,节省系统资源。而且,有针对性的抽取数据,跟有利于发现真正有价值的数据。
数据探索
拿到抽样后的数据后,需要对数据有一个基本的认识。而不能拿到数据之后,就直接开展分析。所以,我们需要对抽样后的数据,进行初步地探索分析,去发现样本数据中是否存在某些明显的规律、或者趋势。这样方便后续对数据更有效地处理,保证后续数据的质量。例如:找到数据中的一些异常值、缺失的数据等等。
数据预处理
采样的数据中,往往都存在一些垃圾数据、或者是不完整、不一致的数据,这样会造成后续的分析结果是不准确的。所以,在进行数据挖掘之前,就应该对数据进行预处理来改善数据的质量。数据预处理包含了:
- 数据筛选、过滤、清洗
- 数据转换
- 缺失值处理
- 数据标准化
- ….
数据挖掘建模
数据预处理之后,就可以开始来进行数据挖掘建模了。在建模之前,首先得明白,我们要解决是哪一类问题(例如:分类、聚类、关联、推荐…等等),针对该类问题,应该使用哪种算法构建模型?所以,简单理解,数据挖掘建模过程其实主要就是根据问题选择是用的算法
模型评估
建立数据挖掘模型之后,就可以使用该模型来进行预测、分析。预测分析的结果未必准确。我们需要对该结果进行评估或者评价。从而优化模型。要根据实际的业务情况来优化模型。