目的:希望能对海量数据进行更加深入的分析,发现并提取隐藏在其中的有价值信息,以便更好地利用这些数据。
概念
数据挖掘(Data Mining DM)是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。
知识发现(Knowledge Discovery in Database KDD)是指用数据库管理系统来存储数据、用机器学习方法来分析数据、挖掘大量数据背后的隐藏的知识的过程。数据挖掘是整个知识发现流程中的一个具体步骤。
数据挖掘的过程
- 1.业务理解,在需求基础上指定数据挖掘目标和实现目标的计划。
- 2.数据理解,收集数据,识别数据质量问题。
- 3.数据准备,选择必要的属性,进行数据清洗。
- 4.数据建模,选择最合适的模型,并确定最佳参数。
- 5.模型评估,对模型进行可靠性和合理性评估,确保模型可以完成业务目标。
- 6.部署阶段,将模型应用于实际工作。
常用工具
商用
- SAS Enterprise Miner 是一种通用的数据挖掘工具。
- SPSS Clementine 是数据挖掘工具。
- IBM Intelligent Miner 包含最广泛的技术和算法。
- QUEST 是一个多任务数据挖掘系统。
开源
- R 是用于统计分析和图形化的计算机语言及分析工具。
- Python 有相当多的和数据挖掘相关的库和模块。
- Weka 是基于Java的数据挖掘软件。
- RapidMiner 是用于数据挖掘的计算环境。
- Mahout 提供了可扩展经典算法的实现和程序库。
- Spark 是一个集群运算框架。
参考
[1]刘鹏,张燕. 数据挖掘