摘要:
hadoop2概述 hadoop1和hadoop2的结构比较: hadoop1中有HDFS和MapReduce.HDFS负责存储,MapReduce负责计算,但是有几个问题需要解决: 1.单点的问题.HDFS的namenode和MapReduce的jobTracker... 阅读全文
摘要:
调度算法:mapreduce当有很多的作业在执行的时候,是按照什么顺序去执行的? 调度算法顺序需要关注: 1.提高作业的吞吐量. 2.要考虑优先级. 三种调度器:如果作业跑不完,并且机器资源利用率比较低,这时候就可以考虑这些东西 1.FifoScheduler,默认的调度... 阅读全文
摘要:
hadoop的压缩解压缩 hadoop对于常见的几种压缩算法对于我们的mapreduce都是内置支持,不需要我们关心.经过map之后,数据会产生输出经过shuffle,这个时候的shuffle过程特别需要消耗网络资源,它传输的数据量越少,对作业的运行时间越有意义,在这种情况下,我们可以对输出进... 阅读全文
摘要:
一:Counter计数器的使用 hadoop计数器:可以让开发人员以全局的视角来审查程序的运行情况以及各项指标,及时做出错误诊断并进行相应处理。 内置计数器(MapReduce相关、文件系统相关和作业调度相关) 也可以通过http://master:50030/jobdetails.jsp查看... 阅读全文
摘要:
一:自定义实现InputFormat*数据源来自于内存 *1.InputFormat是用于处理各种数据源的,下面是实现InputFormat,数据源是来自于内存. *1.1 在程序的job.setInputFormatClass(MyselfmemoryInputFormat.class); *1.... 阅读全文
摘要:
列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入数据进行格式化的.TextInputFormat是默认的.InputFormat有哪些类型? DBInputFormat,DelegatingInputFormat,FileInputFormat,常用... 阅读全文
摘要:
序列化概念: 序列化(Serialization)是指把结构化对象转化为字节流。 反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。 Java序列化(java.io.Serializable)Hadoop序列化的特点 紧凑:高效使用存储空间。 快速:读... 阅读全文
摘要:
作业在运行时,数据或者是作业调用的一个运行图. 用户写的代码通过JobClient提交给JobTracker Job对象中封装了JobClient JobConf和我们的Job对象几乎是一回事. 把我们的代码打包成jar包,上传到hdfs中,JobClient就会获得一个jar包在... 阅读全文
摘要:
public class WordCountApp { // 可以指定目录,目录下如果有二级目录的话,是不会执行的,只会执行一级目录. private static final String INPUT_PATH = "hdfs://hadoop1:9000/abd";// 输入路径 ... 阅读全文
摘要:
首先,搭建Ant环境: 1.1.下载antzip包,可以直接从官网下,也可以从我的csdn账号下载,这里我使用的Ant版本是:apache-ant-1.8.4-bin CSDN Ant 所需jar包下载地址 1.2.将apache-ant-1.8.4-bin.zip包解压,然后添加... 阅读全文