mapreduce - 随笔分类 - jsqup

spark中各个技术点中的依赖(pom.xml)

摘要：mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa 阅读全文

posted @ 2022-08-30 08:23 jsqup 阅读(581) 评论(0) 推荐(0)

访问端口总结

摘要：||启动方式|访问端口| |--|--|--| |HDFS|start-dfs.sh|NameNode(9000 API操作；50070 web访问端口)| |||DataNode(50010 dn和nn通信的端口；50075(datanode的web访问端口)| |||snn(50090 snn的阅读全文

posted @ 2022-08-19 12:06 jsqup 阅读(84) 评论(0) 推荐(0)

outputFormat的使用

摘要：1. 文本输出TextOutputFormat 默认的输出格式，把每条记录写为文本行默认分隔符定义是：\t 即 key\tvalue 将最终输出的key、value数据以指定的分隔符（默认是\t）将key value拼接，然后以字符串（普通的文本数据）写出到结果文件中分隔符可以自定义: conf 阅读全文

posted @ 2022-07-30 18:08 jsqup 阅读(181) 评论(0) 推荐(0)

combiner

摘要：定义：继承Reducer类，Combiner就是一个Reducer，但是处理的是某一个map的输出数据数据写出到reducer了 job.setCombinerClass(WCCombiner.class); // 输入类型是map阶段的输出类型，输出类型一般是map阶段的输出类型 class 阅读全文

posted @ 2022-07-30 14:49 jsqup 阅读(37) 评论(0) 推荐(0)

mr的详细的工作流程

摘要：![](https://img2022.cnblogs.com/blog/2487693/202207/2487693-20220729220216076-598810272.png) 阅读全文

posted @ 2022-07-29 22:11 jsqup 阅读(55) 评论(0) 推荐(0)

hadoop的企业优化

摘要：1. Mapreduce 1. 计算机性能 CPU、内存、磁盘、网络 2. IO操作优化 (1)数据倾斜 (2)Map和Reduce数设置不合理 (3)Map运行时间太长，导致reduce等待时间过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6)Spill溢出次数过多 (7)Merge次阅读全文

posted @ 2022-07-29 11:12 jsqup 阅读(31) 评论(0) 推荐(0)

开启日志聚合

摘要：[root@node1 hadoop]# cat mapred-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the Apa 阅读全文

posted @ 2022-07-29 09:36 jsqup 阅读(42) 评论(0) 推荐(0)

mapreduce中的shuffle机制

摘要：分区的默认方式hashpartitioner public int getPartition(K2 key, V2 value, int numReduceTasks) { return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; } 阅读全文

posted @ 2022-07-29 08:32 jsqup 阅读(46) 评论(0) 推荐(0)

yarn运行流程

摘要：1. 介绍 Yarn是一个分布式资源调用系统，专门用来负责给分布式计算程序分配计算资源 ResourceManager整个集群的管理者，负责分配资源 NodeManager是Yarn集群的打工者，负责接受RM的指令，准备计算资源，用于运行分布式计算程序 YARN运行一个分布式任务之后，还会出现两个组阅读全文

posted @ 2022-07-28 22:11 jsqup 阅读(381) 评论(0) 推荐(0)

压缩机制

摘要：MR压缩的地方 Mapper的输入： MR程序输入的数据源文件是一个压缩包，不需要设置、 Mapper的输出：开启压缩机制并且指定压缩使用的算法机制 Reducer的输出：开启压缩机制并且指定压缩使用的算法机制可压缩的格式： lzo bzip2 阅读全文

posted @ 2022-07-28 16:19 jsqup 阅读(32) 评论(0) 推荐(0)

自定义分区机制

摘要：分区数与reduce任务数必须一致 MyPartitioner类 package com.sxuek.partitiontest; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; /* 阅读全文

posted @ 2022-07-27 13:27 jsqup 阅读(51) 评论(0) 推荐(0)

切片机制

摘要：InputFormat抽象类中的方法 getSplits：对文件进行切片 createRecordReader：将文件数据转换成key-value的格式 InputFormat中的默认使用的子类是FileInputFormat FileInputFormat中的核心实现子类有四个 TextInput 阅读全文

posted @ 2022-07-26 13:53 jsqup 阅读(62) 评论(0) 推荐(0)

hadoop中的序列化机制与反序列化机制

摘要：定义序列化就是把内存中的对象，转换成二进制数据，以便于网络传输反序列化就是将收到的二进制的数据转换成内存中的对象。 java序列化比较笨重，hadoop自己开发了一套序列化机制Writable，比较轻便，好传输在java中一个对象被序列化后，会附带很多额外的信息，不便于在网络中高效传输常阅读全文

posted @ 2022-07-25 20:00 jsqup 阅读(146) 评论(0) 推荐(0)

mr练习题

摘要：题目：使用MR程序实现统计每一个用户消耗的总流量（=上行流量+下行流量） Mapper package com.sxuek.practice; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; im 阅读全文

posted @ 2022-07-25 12:55 jsqup 阅读(41) 评论(0) 推荐(0)

mr程序启动之后存在的进程

摘要：MRApplicationMaster: 监控中程序运行状态、以及向计算机/RM申请资源的进程 MapTask：负责运行map阶段的计算逻辑 ReduceTask: 负责运行reduce阶段的计算逻辑阅读全文

posted @ 2022-07-25 11:29 jsqup 阅读(40) 评论(0) 推荐(0)

单词计数案例

摘要：1. 编程 pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema- 阅读全文

posted @ 2022-07-25 11:14 jsqup 阅读(49) 评论(0) 推荐(0)

jsqup

随笔分类 - mapreduce

公告