【Python数据挖掘概念、方法与实践】

第一章 扩展你的数据挖掘工具

  • 模式识别
    面对感官信息时,人类自然想要寻找模式,对其进行区别、分类和预测。这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长。利用这种技能,我们的祖先更好地掌握了狩猎、聚会、烹饪和组织知识。因此,人类最早计算机化的任务是模式识别和模式预测也就不足为奇了,这种渴望一直持续到现在。近来,根据给定项目的目标,使用计算机找出数据中的模式,已经涉及数据库系统、人工智能、统计学、信息检索、计算机视觉和其他各种计算机科学子领域,以及信息系统、数学或者商业等。不管我们将这种活动称作什么——数据库中的知识发现、数据挖掘、数据科学,其主要使命始终是找出有趣的模式。

模式识别是人类的一项基本能力

  • 第一章主要内容
    什么是数据挖掘
    我们如何进行数据挖掘
    数据挖掘中使用哪些技术
    如何建立数据挖掘环境

如何建立数据挖掘环境是重点

什么是数据挖掘

  • 数据挖掘与知识发现
  • 比较术语
    • 机器学习
      是计算机中科学中的一个非常特殊的子领域,其焦点是开发能从数据中学习以做出预测的算法。但是并不是所有数据挖掘都试图从数据中做出预测或者学习。有时候,我们只是想要找到数据中的一个模式。
    • 预测分析
      各个领域中试图从数据中作出预测的计算解决方案的统称
    • 大数据
      与我们是要搜索数据中的模式还是简单地存储这些数据无关。
    • 数据科学
      是最接近KDD过程的术语,数据挖掘是他们的一个步骤。

Fayyad等人的KDD过程

论文: The KDD Process for Extracting Useful Knowledge from Volumes of Data_1996

KDD方法的具体步骤

  1. 数据选择
  2. 数据预处理
  3. 数据变换
  4. 数据挖掘
  5. 数据解释/评估
  • 数据挖掘教科书:《Data Mining:Concepts and Thechniques》
    也是从原始数据导出知识:
    数据清理
    数据整合
    数据选择
    数据变换
    数据挖掘
    模式评估
    知识表示

1.2.3 CRISP-DM过程

KDD过程的第3种流行版本为CRISP-MD,CRoss-Industry Standard Process for Data Mining

  1. 业务理解
  2. 数据理解
  3. 数据准备
  4. 建模
  5. 评估
  6. 部署
posted @   bitbitbyte  阅读(244)  评论(0编辑  收藏  举报
# 【Python数据挖掘概念、方法与实践】
文章目录第一章 扩展你的数据挖掘工具什么是数据挖掘Fayyad等人的KDD过程1.2.3 CRISP-DM过程
点击右上角即可分享
微信分享提示