《数据挖掘导论》读书笔记（一）—— 绪论

书名：数据挖掘导论(Introduction to Data Mining)
作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
出版社: 人民邮电出版社
译者: 范明 / 范宏建
出版年: 2010-12-10
ISBN: 9787115241009

第1章绪论

什么是数据挖掘

数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库，发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。

数据挖掘要解决的问题

传统数据分析技术遇到的实际问题：
可伸缩：需要处理海量数据，算法必须是可伸缩的(scalable)，可能需要新的数据结构等。
高维性：需要处理高维数据，某些数据分析算法，随着维度的增加，计算复杂度迅速增加。
异种数据和复杂数据：需要处理异种和复杂数据，如半结构化数据，传统的数据分析方法只能处理包含相同类型属性的数据集。
数据的所有权与分布：需要处理的数据不一定存放在同一个站点或归属同一个机构，这就需要开发分布式数据挖掘技术。
非传统的分析：传统的统计方法基于一种假设-检验模式，即提出假设，设计实验，分析数据，费力劳神。

数据挖掘与其他学科

数据挖掘利用了如下一些领域的思想：

来自统计学的抽样、估计和假设检验；
人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论；
以及最优化、进化计算、信息论、信号处理、可视化和信息检索等其他领域；
数据库系统提供有效的存储、索引和查询处理；
高性能并行计算和分布式技术处理海量数据集。

数据挖掘的任务

预测任务
根据其他属性的值，预测特定属性的值。被预测的属性一般称为目标变量(target variable)或因变量(dependent variable)，而用来做预测的属性被称为解释变量(explanatory variable)或自变量(independent variable)。
描述任务
其目标是导出概括数据中潜在联系的模式（相关、趋势、聚类、轨迹、异常）。本质上，描述性任务通常是探索性的，并且常常需要后续处理技术验证和解释。

本书涉及的主题

预测建模(predictive modeling)
以说明变量函数的方式为目标变量建立模型。有两类预测建模任务：分类(classification)，用于预测离散的目标变量；回归(regression)，用于预测连续的目标变量。预测建模可用来确定顾客对产品促销活动的反应，预测地球生态系统的扰动。
关联分析(association analysis)
用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴含规则或特征子集的形式表示。由于搜索空间是指数规模的，关联分析的目标是以有效的方式提取最有趣的模式。关联分析可用来找出具有相关功能的基因组，理解地球气候系统不同元素之间的联系。
聚类分析(cluster analysis)
旨在发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能相似。聚类分析可用来对顾客进行分组，找出显著影响地球气候的海洋区域。
异常检测(anomaly detection)
识别其特征显著不同于其他数据的观测值，这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测课用来检测欺诈行为，判断生态系统扰动。

posted @ 2018-11-06 18:59 husterzxh 阅读(606) 评论(0) 编辑收藏举报

刷新页面返回顶部

husterzxh

桃李不言，下自成蹊。

《数据挖掘导论》读书笔记（一）—— 绪论

第1章绪论

什么是数据挖掘

数据挖掘要解决的问题

数据挖掘与其他学科

数据挖掘的任务

本书涉及的主题

公告

husterzxh

桃李不言，下自成蹊。

《数据挖掘导论》读书笔记（一）—— 绪论

第1章 绪论

什么是数据挖掘

数据挖掘要解决的问题

数据挖掘与其他学科

数据挖掘的任务

本书涉及的主题

公告

第1章绪论