摘要:一、背景 按照年份升序排序,同时每一年中温度降序排序 data文件为1949年-1955年每天的温度数据。 要求:1、计算1949-1955年,每年温度最高的时间 2、计算1949-1955年,每年温度最高的十天 二、二次排序原理 默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时
阅读全文
|
随笔分类 - Hadoop
摘要:一、背景 按照年份升序排序,同时每一年中温度降序排序 data文件为1949年-1955年每天的温度数据。 要求:1、计算1949-1955年,每年温度最高的时间 2、计算1949-1955年,每年温度最高的十天 二、二次排序原理 默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时
阅读全文
摘要:1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me> 1.2 覆盖map(),接收1.1产生的<k,v>,进行处理,转换为新的<k,v>输出。 <hello,1> <you,1> <he
阅读全文
摘要:(ZKFC在NameNode上启动,NodeManager在DataNode上启动,可通过start-dfs.sh和start-yarn.sh,yarn-daemons.sh查看) 1、4台机器,64位cenos6.5系统,Hadoop版本2.6.5 2、配置/etc/hosts 3、安装JDK1.
阅读全文
摘要:本地测试环境(windows):1、在windows下配置hadoop的环境变量2、拷贝debug工具(winutils.exe)到hadoop目录中的bin目录,注意winutils.exe的版本要与hadoop版本对应,否则可能会报错。3、修改hadoop的源码 ,注意:确保项目的lib需要真实
阅读全文
摘要:一、HDFS简介 HDFS为了做到可靠性(reliability)创建了多分数据块(data blocks)的复制(replicas),并将它们放置在服务器群的计算节点中(computer nodes),MapReduce就可以在它们所在的节点上处理这些数据了。 1.1 HDFS数据存储单元(blo
阅读全文
|