摘要: HADOOP中可以分为两个大的模块,存储模块和计算模块。HDFS作为存储模块,JobTracker,TaskTracker构成计算模块。1.HADOOP的文件是以HDFS格式存储的HDFS是一种文件系统,专为大规模分布式数据处理而设计的,我们可以把一个很大的数据集,在HDFS中存储为单个文件。HDF... 阅读全文
posted @ 2015-03-09 22:08 albeter 阅读(374) 评论(0) 推荐(0) 编辑
摘要: hadoop:数据流转图(基于hadoop 0.18.3):通过一个最简单的例子来说明hadoop中的数据流转。hadoop:数据流转图(基于hadoop 0.18.3):这里使用一个例子说明hadoop中的数据流转过程,这个例子是统计一些文章中词汇的总数。首先files表示这些需要统计词汇的文章。... 阅读全文
posted @ 2015-03-09 20:42 albeter 阅读(1294) 评论(0) 推荐(0) 编辑