2018 年 3月 31 日随笔档案 - 飘云粟

2018年3月31日

[hadoop](2) MapReducer:Distributed Cache

摘要：前言本章主要内容是讲述hadoop的分布式缓存的使用，通过分布式缓存可以将一些需要共享的数据在各个集群中共享。准备工作数据集：ufo-60000条记录，这个数据集有一系列包含下列字段的UFO目击事件记录组成，每条记录的字段都是以tab键分割，请看http://www.cnblogs.com/c 阅读全文

posted @ 2018-03-31 17:52 飘云粟阅读(191) 评论(0) 推荐(0) 编辑

[hadoop](1) MapReduce:ChainMapper

摘要：前言本章主要讲述的是对于hadoop生态系统中，MapReduce写的ChainMapper的学习。MapReduce是hadoop集群数据处理的默认框架。而对于数据集中所有的数据必然有一些不友好的数据，我们需要将其丢弃。我们称之为数据的预处理。所以我们需要将预处理模块与数据处理逻辑分开，以便以后阅读全文

posted @ 2018-03-31 01:08 飘云粟阅读(346) 评论(0) 推荐(0) 编辑