随笔分类 - mapreduce
摘要:mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa
阅读全文
摘要:||启动方式|访问端口| |--|--|--| |HDFS|start-dfs.sh|NameNode(9000 API操作;50070 web访问端口)| |||DataNode(50010 dn和nn通信的端口;50075(datanode的web访问端口)| |||snn(50090 snn的
阅读全文
摘要:1. 文本输出TextOutputFormat 默认的输出格式,把每条记录写为文本行 默认分隔符定义是:\t 即 key\tvalue 将最终输出的key、value数据以指定的分隔符(默认是\t)将key value拼接,然后以字符串(普通的文本数据)写出到结果文件中 分隔符可以自定义: conf
阅读全文
摘要:定义: 继承Reducer类,Combiner就是一个Reducer,但是处理的是某一个map的输出数据 数据写出到reducer了 job.setCombinerClass(WCCombiner.class); // 输入类型是map阶段的输出类型,输出类型一般是map阶段的输出类型 class
阅读全文
摘要:
阅读全文
摘要:1. Mapreduce 1. 计算机性能 CPU、内存、磁盘、网络 2. IO操作优化 (1)数据倾斜 (2)Map和Reduce数设置不合理 (3)Map运行时间太长,导致reduce等待时间过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6)Spill溢出次数过多 (7)Merge次
阅读全文
摘要:[root@node1 hadoop]# cat mapred-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the Apa
阅读全文
摘要:分区的默认方式hashpartitioner public int getPartition(K2 key, V2 value, int numReduceTasks) { return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; }
阅读全文
摘要:1. 介绍 Yarn是一个分布式资源调用系统,专门用来负责给分布式计算程序分配计算资源 ResourceManager整个集群的管理者,负责分配资源 NodeManager是Yarn集群的打工者,负责接受RM的指令,准备计算资源,用于运行分布式计算程序 YARN运行一个分布式任务之后,还会出现两个组
阅读全文
摘要:MR压缩的地方 Mapper的输入: MR程序输入的数据源文件是一个压缩包,不需要设置、 Mapper的输出: 开启压缩机制并且指定压缩使用的算法机制 Reducer的输出: 开启压缩机制并且指定压缩使用的算法机制 可压缩的格式: lzo bzip2
阅读全文
摘要:分区数与reduce任务数必须一致 MyPartitioner类 package com.sxuek.partitiontest; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; /*
阅读全文
摘要:InputFormat抽象类中的方法 getSplits:对文件进行切片 createRecordReader:将文件数据转换成key-value的格式 InputFormat中的默认使用的子类是FileInputFormat FileInputFormat中的核心实现子类有四个 TextInput
阅读全文
摘要:定义 序列化 就是把内存中的对象,转换成二进制数据,以便于网络传输 反序列化 就是将收到的二进制的数据转换成内存中的对象。 java序列化比较笨重,hadoop自己开发了一套序列化机制Writable,比较轻便,好传输 在java中一个对象被序列化后,会附带很多额外的信息,不便于在网络中高效传输 常
阅读全文
摘要:题目:使用MR程序实现统计每一个用户消耗的总流量(=上行流量+下行流量) Mapper package com.sxuek.practice; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; im
阅读全文
摘要:MRApplicationMaster: 监控中程序运行状态、以及向计算机/RM申请资源的进程 MapTask: 负责运行map阶段的计算逻辑 ReduceTask: 负责运行reduce阶段的计算逻辑
阅读全文
摘要:1. 编程 pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-
阅读全文