2012 年 8月 1 日随笔档案 - honkcal

2012年8月1日

摘要： Hadoop是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。HDFS是Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量（PB 级）的大文件（通常超过64M），其原理如下图所示：采用Master/Slave 结构。NameNode 维护集群内的元数据，对外提供创建、打开、删除和重命名文件或目录的功能。DatanNode 存储数据，并提负责处理数据的读写请求。DataNode定期向NameNode 上报心跳，N 阅读全文

posted @ 2012-08-01 14:08 honkcal 阅读(2894) 评论(1) 推荐(0) 编辑

数据预处理

摘要：数据挖掘是从大量的，不完全的，有噪声的，模糊的，随即的数据中，提取隐含在其中的，人们事先不知道的，但有潜在的有用信息和知识的过程。数据挖掘过程一般包括数据采集，数据预处理，数据挖掘以及知识评价和呈现。在一个完整的数据挖掘过程中，数据预处理要花费60%左右的时间，而后的挖掘工作仅仅占工工作量的10%左右。目前对挖掘的研究主要集中于挖掘技术，挖掘算法，挖掘语言等在海量的原始数据中，存在这大量杂乱的，重复则，不完整的数据，严重影响到数据挖掘算法的执行效率，有可能导致挖掘结果的偏差。数据预处理分类：从对不同的源数据进行预处理的功能来分，数据预处理主要包括数据清理，数据集成，数据变换，数据规约等4个基本阅读全文

posted @ 2012-08-01 00:37 honkcal 阅读(11192) 评论(0) 推荐(0) 编辑

Honkcal

有些东西很简单。有些东西很难，难了就多看几遍，便简单了。

公告