《数据挖掘 概念与技术》读书笔记 - 第一章 引论

1.1 为什么进行数据挖掘

数据挖掘把大型数据集转化成知识。

数据仓库是一种多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。

联机分析处理(OLAP)是一种分析技术,具有汇总、合并和聚集以及从不同的角度观察信息的能力。(注:与联机事务处理OLTP不同)

1.2 什么是数据挖掘

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

数据挖掘过程:

  1. 数据清洗(消除噪声和删除不一致数据)
  2. 数据集成(多种数据源可以组合在一起)
  3. 数据选择(从数据库中提取与分析任务相关的数据)
  4. 数据变换(通过汇总或聚集操作,把数据变换和统一成合适挖掘的形式)
  5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
  6. 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
  7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

1.3 可以挖掘什么类型的数据

  • 数据库数据
  • 数据仓库数据
  • 事务数据
  • 其他类型数据(数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体和万维网)

1.4 可以挖掘什么类型的模式

  • 特征化和区分
  • 频繁模式、关联和相关性挖掘
  • 分类与回归
  • 聚类分析
  • 离群点分析

1.5 使用什么技术

  • 统计学
  • 机器学习
  • 数据库系统和数据仓库
  • 信息检索

1.6 面向什么类型的应用

  • 商务智能
  • Web搜索引擎

1.7 数据挖掘的主要问题

  • 挖掘方法
  • 用户交互
  • 有效性与可伸缩性
  • 数据类型的多样性
  • 数据挖掘与社会
posted @ 2015-03-02 11:12  Azurewing  阅读(195)  评论(0编辑  收藏  举报