随笔分类 -  Apache Hadoop

分布式系统
摘要:Hadoop 使用 YARN 运行 MapReduce 的过程如下图所示: 总共分为11步. 这里以 WordCount 为例, 我们在客户端终端提交作业: 第一步: run job ( 运行作业 ) 这一步是在 Client 内部进行, hadoop jar .... 是通过 RunJar 运行的 阅读全文
posted @ 2018-02-08 11:33 秦时明月0515 阅读(251) 评论(0) 推荐(0) 编辑
摘要:4. HDFS Client ( 未完待续 ) 目录: 4.1 认识 DFSClient ( 未完待续 ) 4.2 输入流 ( 未完待续 ) 4.3 输出流 ( 未完待续 ) 4.4 DistributedFileSystem 的实现 ( 未完待续 ) 4.5 HDFS 常用工具 ( 未完待续 ) 阅读全文
posted @ 2018-01-25 12:07 秦时明月0515 阅读(1491) 评论(0) 推荐(0) 编辑
摘要:3. DataNode 实现( 未完待续 ) 阅读全文
posted @ 2018-01-25 12:04 秦时明月0515 阅读(138) 评论(0) 推荐(0) 编辑
摘要:2. NameNode 实现( 未完待续 ) 阅读全文
posted @ 2018-01-25 12:03 秦时明月0515 阅读(171) 评论(0) 推荐(0) 编辑
摘要:HDFS 主要包含 NameNode, SecondaryNameNode, DataNode 以及 HDFS Client . 我们从以下这几部分讲: 1. HDFS概述 2. NameNode 实现 3. DataNode 实现 4. HDFS Client 我们这里先讲 HDFS 概述: 1. 阅读全文
posted @ 2018-01-25 10:43 秦时明月0515 阅读(279) 评论(0) 推荐(0) 编辑
摘要:Apache Hadoop 官网 Hadoop源码分析 参考1 参考2 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。 Hadoop 的框架最核心的设计就是:HDFS(Hadoop Distributed File System) 和 MapReduce。HDFS 为海量的 阅读全文
posted @ 2018-01-17 17:29 秦时明月0515 阅读(277) 评论(0) 推荐(0) 编辑
摘要:参考 FileInputFormat类中split切分算法和host选择算法介绍 以及 Hadoop2.6.0的FileInputFormat的任务切分原理分析(即如何控制FileInputFormat的map任务数量) 以及 Hadoop中FileInputFormat计算InputSplit的g 阅读全文
posted @ 2018-01-15 15:29 秦时明月0515 阅读(295) 评论(0) 推荐(0) 编辑
摘要:参考 http://blog.csdn.net/caodaoxi/article/details/12970993 Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (上) Hadoop中Yarnrunner里面submit Job以及AM生成 至Jo 阅读全文
posted @ 2017-10-31 09:38 秦时明月0515 阅读(465) 评论(0) 推荐(0) 编辑
摘要:环境是 64bit Ubuntu 14.04 系统, jdk 1.7 以及 Eclipse Mars (4.5) 这里介绍两种调试 Hadoop 源代码的方法: 利用 Eclipse 远程调试工具和打印调试日志. 这两种方法均可以调试伪分布式工作模式和完全分布式工作模式下的 Hadoop. 最后介绍 阅读全文
posted @ 2017-07-04 11:26 秦时明月0515 阅读(2689) 评论(0) 推荐(0) 编辑
摘要:以 hadoop 2.7.3 为例 bin 目录下是最基础的集群管理脚本, 用户可通过该脚本完成各种功能, 如 HDFS 管理, MapReduce 作业管理等. 作为入门, 先介绍bin 目录下的 hadoop 脚本的使用方法, 如下所示: 参考 官网的 Hadoop 命令参考 hadoop 对应 阅读全文
posted @ 2017-07-03 22:01 秦时明月0515 阅读(711) 评论(0) 推荐(0) 编辑
摘要:Hadoop 2.X 包括 编译好的可以直接部署的文件hadoop-{VERSION}.tar.gz; 还有源代码文件hadoop-{VERSION}-src.tar.gz , 需要 Maven 编译后才能进行部署安装. 我以 hadoop 2.7.3 为例. 1. 在Hadoop 的JAR 压缩包 阅读全文
posted @ 2017-07-01 10:33 秦时明月0515 阅读(649) 评论(0) 推荐(0) 编辑
摘要:以hadoop 2.7.3为例, jdk1.7.0_80 , Eclipse Mars(4.5), Apache Maven 3.0.5 mvn时需要使用root权限,即县切换到root用户,用命令su root. 本节将介绍如何创建一个Hadoop源代码工程以方便阅读源代码. Hadoop源代码h 阅读全文
posted @ 2017-06-30 17:13 秦时明月0515 阅读(5215) 评论(0) 推荐(0) 编辑
摘要:为了做mapreduce开发,要使用eclipse,并且需要对应的Hadoop插件hadoop-eclipse-plugin-2.7.3.jar,首先说明一下,在hadoop1.x之前官方hadoop安装包中都自带有eclipse的插件,而如今随着程序员的开发工具eclipse版本的增多和差异,ha 阅读全文
posted @ 2017-06-30 15:20 秦时明月0515 阅读(5955) 评论(2) 推荐(1) 编辑
摘要:hadoop官网 我以Hadoop 2.7.3为例. hadoop 2.7.3 官网 . 用的操作系统是64bit Ubuntu14.04. 其中我们还可以学习 Apache Maven Project , 它是用来编译 hadoop 源代码的. 还要了解 Apache Log4j , 它用来调试 阅读全文
posted @ 2017-06-30 10:29 秦时明月0515 阅读(307) 评论(0) 推荐(0) 编辑
摘要:搭建Hadoop环境( 我以hadoop 2.7.3 为例, 系统为 64bit Ubuntu14.04 ) hadoop 2.7.3 官网下载 , 选择自己要安装的版本。注意每个版本对应两个下载选项source和binary,我们暂时下载binary,我们下载编译好的文件hadoop-2.7.3. 阅读全文
posted @ 2017-06-30 09:54 秦时明月0515 阅读(372) 评论(0) 推荐(0) 编辑
摘要:我的Hadoop版本是hadoop-2.7.3, 我们可以去hadoop官网下载源码hadoop-2.7.3-src,以及编译好的工程文件hadoop-2.7.3, 后者可以直接部署. 前者hadoop-2.7.3-src必须mvn之后才能部署. 我们修改代码必须是在hadoop-2.7.3-src 阅读全文
posted @ 2017-06-22 20:04 秦时明月0515 阅读(3737) 评论(3) 推荐(0) 编辑
摘要:如要转载,请注上作者和出处。 由于能力有限,如有错误,请大家指正。 须知: 我们下载的是hadoop-2.7.3-src 源码。 这个版本默认调度器是Capacity调度器。 在2.0.2-alpha版本的时候,有人汇报了一个fifo调度器的bug,社区把默认调度器从原来的fifo切换成capaci 阅读全文
posted @ 2017-06-07 08:28 秦时明月0515 阅读(4320) 评论(1) 推荐(2) 编辑
摘要:这是我的分析,当然查阅书籍和网络。如有什么不对的,请各位批评指正。以下的类有的并不完全,只列出重要的方法。 如要转载,请注上作者以及出处。 一、源码阅读环境 需要安装jdk1.7.0版本及其以上版本,还需要安装Eclipse阅读hadoop源码。 Eclipse安装教程参见我的博客。 Hadoop源 阅读全文
posted @ 2017-05-18 18:19 秦时明月0515 阅读(2115) 评论(0) 推荐(1) 编辑
摘要:准备工作: 1. hadoop集群(我用的是hadoop-2.7.3版本),这里hadoop有两种:1是编译好的hadoop-2.7.3;2是源代码hadoop-2.7.3-src; 2. 自己的机器可以是任何系统,只要支持JVM,自己的主机上必须有eclipse,以及hadoop-2.7.3和ha 阅读全文
posted @ 2017-04-28 12:13 秦时明月0515 阅读(30715) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示