小丁子

2015年7月9日

摘要： hadoop2概述 hadoop1和hadoop2的结构比较: hadoop1中有HDFS和MapReduce.HDFS负责存储,MapReduce负责计算,但是有几个问题需要解决: 1.单点的问题.HDFS的namenode和MapReduce的jobTracker... 阅读全文

posted @ 2015-07-09 02:33 小丁子阅读(466) 评论(0) 推荐(0) 编辑

2015年6月20日

mapreduce的调度算法和job调优

摘要：调度算法:mapreduce当有很多的作业在执行的时候,是按照什么顺序去执行的? 调度算法顺序需要关注: 1.提高作业的吞吐量. 2.要考虑优先级. 三种调度器:如果作业跑不完,并且机器资源利用率比较低,这时候就可以考虑这些东西 1.FifoScheduler,默认的调度... 阅读全文

posted @ 2015-06-20 10:36 小丁子阅读(1294) 评论(0) 推荐(0) 编辑

2015年6月10日

hadoop的压缩解压缩,reduce端join,map端join

摘要： hadoop的压缩解压缩 hadoop对于常见的几种压缩算法对于我们的mapreduce都是内置支持,不需要我们关心.经过map之后,数据会产生输出经过shuffle,这个时候的shuffle过程特别需要消耗网络资源,它传输的数据量越少,对作业的运行时间越有意义,在这种情况下,我们可以对输出进... 阅读全文

posted @ 2015-06-10 07:00 小丁子阅读(549) 评论(0) 推荐(0) 编辑

2015年6月9日

MapReducer Counter计数器的使用,Combiner ,Partitioner,Sort,Grop的使用,

摘要：一:Counter计数器的使用 hadoop计数器:可以让开发人员以全局的视角来审查程序的运行情况以及各项指标，及时做出错误诊断并进行相应处理。内置计数器（MapReduce相关、文件系统相关和作业调度相关）也可以通过http://master:50030/jobdetails.jsp查看... 阅读全文

posted @ 2015-06-09 06:36 小丁子阅读(416) 评论(0) 推荐(1) 编辑

2015年5月31日

自定义实现InputFormat、OutputFormat、输出到多个文件目录中去、hadoop1.x api写单词计数的例子、运行时接收命令行参数，代码例子

摘要：一:自定义实现InputFormat*数据源来自于内存 *1.InputFormat是用于处理各种数据源的,下面是实现InputFormat,数据源是来自于内存. *1.1 在程序的job.setInputFormatClass(MyselfmemoryInputFormat.class); *1.... 阅读全文

posted @ 2015-05-31 06:56 小丁子阅读(448) 评论(0) 推荐(0) 编辑

2015年5月15日

InputFormat,OutputFormat,InputSplit,RecordRead(一些常见面试题),使用yum安装64位Mysql

摘要：列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入数据进行格式化的.TextInputFormat是默认的.InputFormat有哪些类型? DBInputFormat,DelegatingInputFormat,FileInputFormat,常用... 阅读全文

posted @ 2015-05-15 06:49 小丁子阅读(978) 评论(0) 推荐(0) 编辑

2015年4月27日

hadoop序列化

摘要：序列化概念: 序列化（Serialization）是指把结构化对象转化为字节流。反序列化（Deserialization）是序列化的逆过程。即把字节流转回结构化对象。 Java序列化（java.io.Serializable）Hadoop序列化的特点紧凑：高效使用存储空间。快速：读... 阅读全文

posted @ 2015-04-27 06:58 小丁子阅读(975) 评论(0) 推荐(0) 编辑

2015年4月21日

MapReduce的执行过程.

摘要：作业在运行时,数据或者是作业调用的一个运行图. 用户写的代码通过JobClient提交给JobTracker Job对象中封装了JobClient JobConf和我们的Job对象几乎是一回事. 把我们的代码打包成jar包,上传到hdfs中,JobClient就会获得一个jar包在... 阅读全文

posted @ 2015-04-21 01:09 小丁子阅读(441) 评论(0) 推荐(0) 编辑

单词计数WordCountApp.class

摘要： public class WordCountApp { // 可以指定目录,目录下如果有二级目录的话,是不会执行的,只会执行一级目录. private static final String INPUT_PATH = "hdfs://hadoop1:9000/abd";// 输入路径 ... 阅读全文

posted @ 2015-04-21 00:45 小丁子阅读(246) 评论(0) 推荐(0) 编辑

使用Ant发布hadoop代码到服务器

摘要：首先,搭建Ant环境: 1.1.下载antzip包,可以直接从官网下,也可以从我的csdn账号下载,这里我使用的Ant版本是:apache-ant-1.8.4-bin CSDN Ant 所需jar包下载地址 1.2.将apache-ant-1.8.4-bin.zip包解压,然后添加... 阅读全文

posted @ 2015-04-21 00:28 小丁子阅读(378) 评论(0) 推荐(0) 编辑

公告