随笔分类 -  mapreduce

摘要:mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa 阅读全文
posted @ 2022-08-30 08:23 jsqup 阅读(509) 评论(0) 推荐(0) 编辑
摘要:||启动方式|访问端口| |--|--|--| |HDFS|start-dfs.sh|NameNode(9000 API操作;50070 web访问端口)| |||DataNode(50010 dn和nn通信的端口;50075(datanode的web访问端口)| |||snn(50090 snn的 阅读全文
posted @ 2022-08-19 12:06 jsqup 阅读(51) 评论(0) 推荐(0) 编辑
摘要:1. 文本输出TextOutputFormat 默认的输出格式,把每条记录写为文本行 默认分隔符定义是:\t 即 key\tvalue 将最终输出的key、value数据以指定的分隔符(默认是\t)将key value拼接,然后以字符串(普通的文本数据)写出到结果文件中 分隔符可以自定义: conf 阅读全文
posted @ 2022-07-30 18:08 jsqup 阅读(106) 评论(0) 推荐(0) 编辑
摘要:定义: 继承Reducer类,Combiner就是一个Reducer,但是处理的是某一个map的输出数据 数据写出到reducer了 job.setCombinerClass(WCCombiner.class); // 输入类型是map阶段的输出类型,输出类型一般是map阶段的输出类型 class 阅读全文
posted @ 2022-07-30 14:49 jsqup 阅读(19) 评论(0) 推荐(0) 编辑
摘要:![](https://img2022.cnblogs.com/blog/2487693/202207/2487693-20220729220216076-598810272.png) 阅读全文
posted @ 2022-07-29 22:11 jsqup 阅读(38) 评论(0) 推荐(0) 编辑
摘要:1. Mapreduce 1. 计算机性能 CPU、内存、磁盘、网络 2. IO操作优化 (1)数据倾斜 (2)Map和Reduce数设置不合理 (3)Map运行时间太长,导致reduce等待时间过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6)Spill溢出次数过多 (7)Merge次 阅读全文
posted @ 2022-07-29 11:12 jsqup 阅读(19) 评论(0) 推荐(0) 编辑
摘要:[root@node1 hadoop]# cat mapred-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the Apa 阅读全文
posted @ 2022-07-29 09:36 jsqup 阅读(23) 评论(0) 推荐(0) 编辑
摘要:分区的默认方式hashpartitioner public int getPartition(K2 key, V2 value, int numReduceTasks) { return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; } 阅读全文
posted @ 2022-07-29 08:32 jsqup 阅读(16) 评论(0) 推荐(0) 编辑
摘要:1. 介绍 Yarn是一个分布式资源调用系统,专门用来负责给分布式计算程序分配计算资源 ResourceManager整个集群的管理者,负责分配资源 NodeManager是Yarn集群的打工者,负责接受RM的指令,准备计算资源,用于运行分布式计算程序 YARN运行一个分布式任务之后,还会出现两个组 阅读全文
posted @ 2022-07-28 22:11 jsqup 阅读(350) 评论(0) 推荐(0) 编辑
摘要:MR压缩的地方 Mapper的输入: MR程序输入的数据源文件是一个压缩包,不需要设置、 Mapper的输出: 开启压缩机制并且指定压缩使用的算法机制 Reducer的输出: 开启压缩机制并且指定压缩使用的算法机制 可压缩的格式: lzo bzip2 阅读全文
posted @ 2022-07-28 16:19 jsqup 阅读(20) 评论(0) 推荐(0) 编辑
摘要:分区数与reduce任务数必须一致 MyPartitioner类 package com.sxuek.partitiontest; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; /* 阅读全文
posted @ 2022-07-27 13:27 jsqup 阅读(25) 评论(0) 推荐(0) 编辑
摘要:InputFormat抽象类中的方法 getSplits:对文件进行切片 createRecordReader:将文件数据转换成key-value的格式 InputFormat中的默认使用的子类是FileInputFormat FileInputFormat中的核心实现子类有四个 TextInput 阅读全文
posted @ 2022-07-26 13:53 jsqup 阅读(41) 评论(0) 推荐(0) 编辑
摘要:定义 序列化 就是把内存中的对象,转换成二进制数据,以便于网络传输 反序列化 就是将收到的二进制的数据转换成内存中的对象。 java序列化比较笨重,hadoop自己开发了一套序列化机制Writable,比较轻便,好传输 在java中一个对象被序列化后,会附带很多额外的信息,不便于在网络中高效传输 常 阅读全文
posted @ 2022-07-25 20:00 jsqup 阅读(124) 评论(0) 推荐(0) 编辑
摘要:题目:使用MR程序实现统计每一个用户消耗的总流量(=上行流量+下行流量) Mapper package com.sxuek.practice; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; im 阅读全文
posted @ 2022-07-25 12:55 jsqup 阅读(30) 评论(0) 推荐(0) 编辑
摘要:MRApplicationMaster: 监控中程序运行状态、以及向计算机/RM申请资源的进程 MapTask: 负责运行map阶段的计算逻辑 ReduceTask: 负责运行reduce阶段的计算逻辑 阅读全文
posted @ 2022-07-25 11:29 jsqup 阅读(31) 评论(0) 推荐(0) 编辑
摘要:1. 编程 pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema- 阅读全文
posted @ 2022-07-25 11:14 jsqup 阅读(31) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示