目的:希望能对海量数据进行更加深入的分析,发现并提取隐藏在其中的有价值信息,以便更好地利用这些数据。

概念

数据挖掘(Data Mining DM)是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。

知识发现(Knowledge Discovery in Database KDD)是指用数据库管理系统来存储数据、用机器学习方法来分析数据、挖掘大量数据背后的隐藏的知识的过程。数据挖掘是整个知识发现流程中的一个具体步骤。

数据挖掘的过程

  • 1.业务理解,在需求基础上指定数据挖掘目标和实现目标的计划。
  • 2.数据理解,收集数据,识别数据质量问题。
  • 3.数据准备,选择必要的属性,进行数据清洗。
  • 4.数据建模,选择最合适的模型,并确定最佳参数。
  • 5.模型评估,对模型进行可靠性和合理性评估,确保模型可以完成业务目标。
  • 6.部署阶段,将模型应用于实际工作。

常用工具

商用

  • SAS Enterprise Miner 是一种通用的数据挖掘工具。
  • SPSS Clementine 是数据挖掘工具。
  • IBM Intelligent Miner 包含最广泛的技术和算法。
  • QUEST 是一个多任务数据挖掘系统。

开源

  • R 是用于统计分析和图形化的计算机语言及分析工具。
  • Python 有相当多的和数据挖掘相关的库和模块。
  • Weka 是基于Java的数据挖掘软件。
  • RapidMiner 是用于数据挖掘的计算环境。
  • Mahout 提供了可扩展经典算法的实现和程序库。
  • Spark 是一个集群运算框架。

参考

[1]刘鹏,张燕. 数据挖掘

 posted on 2021-06-29 21:30  x-yun  阅读(78)  评论(0编辑  收藏  举报