公告

随笔分类 - Hadoop

摘要：一、背景按照年份升序排序，同时每一年中温度降序排序 data文件为1949年-1955年每天的温度数据。要求：1、计算1949-1955年，每年温度最高的时间 2、计算1949-1955年，每年温度最高的十天二、二次排序原理默认情况下，Map 输出的结果会对 Key 进行默认的排序，但是有时阅读全文

posted @ 2018-11-21 16:23 ErBing 阅读(497) 评论(0) 推荐(0)

MapReduce：Shuffle过程详解

摘要：1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me> 1.2 覆盖map()，接收1.1产生的<k,v>，进行处理，转换为新的<k,v>输出。 <hello,1> <you,1> <he 阅读全文

posted @ 2018-11-20 18:03 ErBing 阅读(1163) 评论(0) 推荐(0)

hadoop HA集群搭建步骤

摘要：（ZKFC在NameNode上启动，NodeManager在DataNode上启动，可通过start-dfs.sh和start-yarn.sh，yarn-daemons.sh查看） 1、4台机器，64位cenos6.5系统，Hadoop版本2.6.5 2、配置/etc/hosts 3、安装JDK1. 阅读全文

posted @ 2018-10-30 16:33 ErBing 阅读(1114) 评论(0) 推荐(0)

MapReduce两种执行环境介绍：本地测试环境，服务器环境

摘要：本地测试环境(windows)：1、在windows下配置hadoop的环境变量2、拷贝debug工具(winutils.exe)到hadoop目录中的bin目录，注意winutils.exe的版本要与hadoop版本对应，否则可能会报错。3、修改hadoop的源码，注意：确保项目的lib需要真实阅读全文

posted @ 2018-10-29 14:50 ErBing 阅读(1256) 评论(0) 推荐(0)

HDFS原理解析

摘要：一、HDFS简介 HDFS为了做到可靠性（reliability）创建了多分数据块（data blocks）的复制（replicas），并将它们放置在服务器群的计算节点中（computer nodes），MapReduce就可以在它们所在的节点上处理这些数据了。 1.1 HDFS数据存储单元（blo 阅读全文

posted @ 2018-10-24 09:34 ErBing 阅读(602) 评论(0) 推荐(0)