摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文
摘要:Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life
阅读全文
摘要:一、Hadoop二次开发环境搭建 ### 系统环境 ~~~ 系统:linux122: CentOS-7_x86_64 protobuf: protoc-2.5.0 maven: maven-3.6.0 hadoop: hadoop-2.9.2 java: jdk1.8.0_231 cmake: cm
阅读全文
摘要:一、Namenode Full GC ~~~ [NamenodeFullGC-FullGC的影响] ~~~ [NamenodeFullGC-FullGC的日志分析] 二、JVM堆内存 ### JVM堆内存 ~~~ JVM内存划分为堆内存和非堆内存,堆内存分为年轻代(Young Generation)
阅读全文
摘要:一、Job调优 ~~~ [MR调优-shuffle调优-推测执行-小文件优化] ~~~ [MR调优-shuffle调优-数据倾斜] ### 推测执行 ~~~ 集群规模很大时(几百上千台节点的集群),个别机器出现软硬件故障的概率就变大了, ~~~ 并且会因此延长整个任务的执行时间推测执行通过将一个ta
阅读全文
摘要:一、YARN调优 ### NM配置 ~~~ 可用内存 ~~~ 刨除分配给操作系统、其他服务的内存外,剩余的资源应尽量分配给YARN。 ~~~ 默认情况下,Map或Reduce container会使用1个虚拟CPU内核和1024MB内存, ~~~ ApplicationMaster使用1536MB内
阅读全文
摘要:一、Shuffle调优 ~~~ [MR调优-shuffle调优-Map端调优] ~~~ [MR调优-shuffle调优-Combiner] ~~~ [MR调优-shuffle调优-Reduce端调优] ### Shuffle调优 ~~~ Shuffle阶段是MapReduce性能的关键部分, ~~~
阅读全文
摘要:一、[MR调优-Job执行的三原则]: ### Job执行三原则 ~~~ 充分利用集群资源 ~~~ reduce阶段尽量放在一轮 ~~~ 每个task的执行时间要合理 ### 原则一 充分利用集群资源 ~~~ Job运行时,尽量让所有的节点都有任务处理,这样能尽量保证集群资源被充分利用, ~~~ 任
阅读全文
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文
摘要:一、扩展Hadoop3.x新特性概述 ### Hadoop3.x ~~~ Hadoop3.x中增强了很多特性,在Hadoop3.x中,不再允许使用jdk1.7, ~~~ 要求jdk1.8以上版本。这是因为Hadoop 2.0是基于JDK 1.7开发的, ~~~ 而JDK 1.7在2015年4月已停止
阅读全文
摘要:一、源码剖析之NameNode如何支持高并发访问:双缓冲机制:NameNode如何支撑高并发访问(双缓冲机制) ### 高并发访问NameNode会遇到什么样的问题: ~~~ 经过学习HDFS的元数据管理机制, ~~~ Client每次请求NameNode修改一条元数据(比如说申请上传一个文件, ~
阅读全文
摘要:一、[源码剖析之NameNode启动流程]:Apache Hadoop 核心源码剖析 ### 下载Apache Hadoop-2.9.2官方源码:https://hadoop.apache.org/releases.html ——> Source Deownload:源码 ——> Binary do
阅读全文
摘要:一、[源码剖析之DataNode启动流程] :DataNode 启动流程 ### datanode的Main Class是DataNode,先找到DataNode.main() public class DataNode extends ReconfigurableBase implements I
阅读全文
摘要:一、[Yarn资源调度之多租户的资源隔离配置] ### Yarn多租户资源隔离配置 ~~~ Yarn集群资源设置为A,B两个队列, ~~~ A队列设置占用资源70%主要用来运行常规的定时任务, ~~~ B队列设置占用资源30%主要运行临时任务, ~~~ 两个队列间可相互资源共享,假如A队列资源占满,
阅读全文
摘要:一、[Yarn资源调度之架构原理/工作机制及调度策略]:Yarn架构 ### Yarn架构 ~~~ ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度; ~~~ NodeManager(nm):单个节点上的
阅读全文
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文
摘要:一、[MR算法扩展之MergeSort归并排序][MR算法扩展之QuickSort快速排序]:Mergesort归并排序 二、合并 三、合并细节 ### 不断地将当前序列平均分割成 2个子序列 ~~~ 直到不能再分割(序列中只剩 1个元素) ### 不断地将 2个子序列合并成一个有序序列 ~~~ 直
阅读全文
摘要:一、分区排序多目录输出 ### Mapper package com.yanqi.mr.comment.step2; import org.apache.commons.lang3.StringUtils; import org.apache.hadoop.io.BytesWritable; imp
阅读全文
摘要:一、程序调优 ### 预合并CombineMapper package com.yanqi.mr.comment.step3; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; im
阅读全文
摘要:一、MapReduce综合案例:MR综合案例 ### 需求 ~~~ 现在有一些订单的评论数据,需求,将订单按照好评与差评区分开来, ~~~ 将数据输出到不同的文件目录下,数据内容如下,其中数据第九个字段表示好评, ~~~ 中评,差评。0:好评,1:中评,2:差评。 ~~~ 现需要根据好评,中评,差评
阅读全文