2018年3月31日
摘要: 前言 本章主要内容是讲述hadoop的分布式缓存的使用,通过分布式缓存可以将一些需要共享的数据在各个集群中共享。 准备工作 数据集:ufo-60000条记录,这个数据集有一系列包含下列字段的UFO目击事件记录组成,每条记录的字段都是以tab键分割,请看http://www.cnblogs.com/c 阅读全文
posted @ 2018-03-31 17:52 飘云粟 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 前言 本章主要讲述的是对于hadoop生态系统中,MapReduce写的ChainMapper的学习。MapReduce是hadoop集群数据处理的默认框架。而对于数据集中所有的数据必然有一些不友好的数据,我们需要将其丢弃。我们称之为数据的预处理。所以我们需要将预处理模块与数据处理逻辑分开,以便以后 阅读全文
posted @ 2018-03-31 01:08 飘云粟 阅读(346) 评论(0) 推荐(0) 编辑