上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 33 下一页
摘要: [root@node1 conf]# mv hive-env.sh.template hive-env.sh [root@node1 conf]# vi hive-env.sh export HIVE_CONF_DIR=/opt/app/hive-2.3.8/conf export HADOOP_H 阅读全文
posted @ 2022-07-29 18:35 jsqup 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 1. Mapreduce 1. 计算机性能 CPU、内存、磁盘、网络 2. IO操作优化 (1)数据倾斜 (2)Map和Reduce数设置不合理 (3)Map运行时间太长,导致reduce等待时间过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6)Spill溢出次数过多 (7)Merge次 阅读全文
posted @ 2022-07-29 11:12 jsqup 阅读(15) 评论(0) 推荐(0) 编辑
摘要: [root@node1 hadoop]# cat mapred-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the Apa 阅读全文
posted @ 2022-07-29 09:36 jsqup 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 分区的默认方式hashpartitioner public int getPartition(K2 key, V2 value, int numReduceTasks) { return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; } 阅读全文
posted @ 2022-07-29 08:32 jsqup 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 1. 介绍 Yarn是一个分布式资源调用系统,专门用来负责给分布式计算程序分配计算资源 ResourceManager整个集群的管理者,负责分配资源 NodeManager是Yarn集群的打工者,负责接受RM的指令,准备计算资源,用于运行分布式计算程序 YARN运行一个分布式任务之后,还会出现两个组 阅读全文
posted @ 2022-07-28 22:11 jsqup 阅读(341) 评论(0) 推荐(0) 编辑
摘要: MR压缩的地方 Mapper的输入: MR程序输入的数据源文件是一个压缩包,不需要设置、 Mapper的输出: 开启压缩机制并且指定压缩使用的算法机制 Reducer的输出: 开启压缩机制并且指定压缩使用的算法机制 可压缩的格式: lzo bzip2 阅读全文
posted @ 2022-07-28 16:19 jsqup 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 分区数与reduce任务数必须一致 MyPartitioner类 package com.sxuek.partitiontest; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; /* 阅读全文
posted @ 2022-07-27 13:27 jsqup 阅读(19) 评论(0) 推荐(0) 编辑
摘要: InputFormat抽象类中的方法 getSplits:对文件进行切片 createRecordReader:将文件数据转换成key-value的格式 InputFormat中的默认使用的子类是FileInputFormat FileInputFormat中的核心实现子类有四个 TextInput 阅读全文
posted @ 2022-07-26 13:53 jsqup 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 定义 序列化 就是把内存中的对象,转换成二进制数据,以便于网络传输 反序列化 就是将收到的二进制的数据转换成内存中的对象。 java序列化比较笨重,hadoop自己开发了一套序列化机制Writable,比较轻便,好传输 在java中一个对象被序列化后,会附带很多额外的信息,不便于在网络中高效传输 常 阅读全文
posted @ 2022-07-25 20:00 jsqup 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 题目:使用MR程序实现统计每一个用户消耗的总流量(=上行流量+下行流量) Mapper package com.sxuek.practice; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; im 阅读全文
posted @ 2022-07-25 12:55 jsqup 阅读(26) 评论(0) 推荐(0) 编辑
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 33 下一页