★P〓P★的随笔

纸上得来终觉浅,绝知此事要躬行。

2008年8月2日

读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.3 数据清理

摘要: 现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。 阅读全文

posted @ 2008-08-02 19:04 itolssy 阅读(1039) 评论(0) 推荐(0) 编辑

读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.2 描述性数据汇总

摘要: 对于许多数据预处理任务,用户希望知道关于数据的中心趋势和离中趋势特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)、中列数(midrange),而数据离中趋势度量包括四分位数(quartiles)、四分位数极差(interquartile range, IQR)和方差(variance)。 阅读全文

posted @ 2008-08-02 19:03 itolssy 阅读(1882) 评论(0) 推荐(0) 编辑

读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.1 为什么要预处理数据

摘要: 有大量数据预处理技术。数据清理可以去掉数据中的噪音,纠正不一致。数据集成将数据由多个源合并成一致的数据存储,如数据仓库。数据变换(如规范化)也可以使用。例如,规范化可以改进涉及距离度量的挖掘算法的精度和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。这些技术不是互斥的,可以一起使用。这些数据处理技术在数据挖掘之前使用,可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。 阅读全文

posted @ 2008-08-02 19:02 itolssy 阅读(710) 评论(0) 推荐(0) 编辑

读书笔记《数据挖掘概念与技术》第1章 引言

摘要: 数据挖掘是从大量数据中发现有趣模式,这些数据可以存放在数据库、数据仓库或其它信息存储中。这是一个年青的跨学科领域,源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算。其它有贡献的领域包括神经网络、模式识别、空间数据分析、图像数据库、信号处理和许多应用领域,如商务、经济学和生物信息学。数据挖掘功能包括发现概念/类描述、关联和相关、分类、预测、聚类、趋势分析、离群点和偏差分析以及相似性分析。特征化和区分是数据汇总的形式。 阅读全文

posted @ 2008-08-02 18:55 itolssy 阅读(1681) 评论(1) 推荐(0) 编辑

【转载】Weka入门教程(2)

摘要: Source:http://forum.wekacn.org/viewtopic.php?f=2&t=9&sid=3e11f64d53cf134215bd69450412cdb9 5. 分类与回归 背景知识 WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中,这是有原因的。 在这两个任务中,都有一个目标属性(输出变量)。我们希... 阅读全文

posted @ 2008-08-02 18:50 itolssy 阅读(3686) 评论(0) 推荐(0) 编辑

【转载】Weka入门教程

摘要: Source: http://forum.wekacn.org/viewtopic.php?f=2&t=9&sid=3e11f64d53cf134215bd69450412cdb9 1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/m... 阅读全文

posted @ 2008-08-02 18:50 itolssy 阅读(2351) 评论(0) 推荐(0) 编辑

【转载】主要空间数据挖掘方法

摘要: 主要空间数据挖掘方法 Source: http://jerry429.bokee.com/2993629.html 张新长 马林兵等,《地理信息系统数据库》[M],科学出版社,2005年2月 第二章第二节 空间数据 空间数据挖掘是多学科和多种技术交叉综合的新领域,其挖掘方法以人工智能、专家系统、机器学习、数据库... 阅读全文

posted @ 2008-08-02 18:45 itolssy 阅读(965) 评论(0) 推荐(0) 编辑

导航