摘要:从今天开始新的系列:Hadoop总结篇 之前的hadoop学习篇由于是学习过程中随手记下来的一些内容,不具有系统性。所以在这个系列中,将凭着这段时间的研究心得,来记录一些自认为比较重要的东西。 本系列的主要参考书目是《Hadoop技术内幕:深入解析Yarn架构设计与实现原理》 比如作业从提交到执行到
阅读全文
05 2016 档案
摘要:所谓推测式执行,就是计算框架判断,如果有一个task执行的过慢,则会启动备份任务,最终使用原任务+备份任务中执行较快task的结果。产生原因一般是程序bug、负载倾斜。 那么这个较慢,是怎么判断的呢? 有如下具体的算法: 比较两个时间。一是根据推测式算法计算出来的task最终完成时刻,也就是按着任务
阅读全文
摘要:yarn.nodemanager.aux-services mapreduce.shuffle yarn.nodemanager.aux-services.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler 为了能够运行MapReduce程序,需要让各个NodeM...
阅读全文
摘要:这篇文章来自于:董的博客,记录备查 内存管理,主要是管理nodemanager上的物理内存和虚拟内存。 YARN允许用户配置每个节点上可用的物理内存资源,注意,这里是“可用的”,因为一个节点上的内存会被若干个服务共享,比如一部分给YARN,一部分给HDFS,一部分给HBase等,YARN配置的只是自
阅读全文
摘要:1、新版本:mapreduce包 2、job设置: a.JobName便于调试 b.FileInputFormat.addInputPath 添加输入路径,可添加多个;可以是具体文件,还可以是文件夹。 FileOutputFormat.setOutputPath 设置输出路径,只能设置一个,是文件夹
阅读全文
摘要:yarn是一个分布式的资源管理系统。 它诞生的原因是原来的MapReduce框架的一些不足: 1、JobTracker单点故障隐患 2、JobTracker承担的任务太多,维护Job状态,Job的task的状态等 3、在taskTracker端,使用map/reduce task表示资源过于简单,没
阅读全文
摘要:zookeeper要保证各个server之间同步,实现同步的协议是zab协议。此协议有两种模式:恢复模式(选主)和广播模式(同步)。 服务启动或者leader崩溃时,进入恢复模式。选举成功且大多数server完成了和leader的状态同步后(2n+1台中的n+1台),恢复模式就结束了。 状态同步保证
阅读全文
摘要:由于之前虚拟机都是用的桥接方式,有时候没有网络可用,想学习的时候,就狠不方便。 于是研究了一下,希望搭建一个多台虚机组成一个局域网的集群,即host-only方式 1、安装VM,网络选择“host-only”模式 2、设置本机(win7)的网络设置,配置虚拟网卡,用来跟虚拟机通信 即:VMware
阅读全文