随笔分类 - Hadoop
摘要:Hadoop开始设计以Linux平台为运行目标,所以这里推荐在Linux发行版比如Ubuntu进行安装,目前已经有Hadoop for Windows出来,大家自行搜下文章。 Hadoop运行模式分为单机、伪分布式、真实分布式三种,默认安装到本地后是单机模式。 1. 安装Jdk Hadoop是用Ja
阅读全文
摘要:众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值...
阅读全文