shihuai355 - 博客园

2014年7月10日

摘要：常用管理命令Hadoop管理员的常用命令。启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.shbalancer运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程。... 阅读全文

posted @ 2014-07-10 10:06 shihuai355 阅读(217) 评论(0) 推荐(0) 编辑

HDFS详解（3）——HDFS文件结构

摘要： HDFS中的NameNode、DataNode、Secondery NameNode是如何在磁盘上组织和存储持久化数据的？下面将分别进行介绍。注意，这里主要介绍的是Hadoop 2.0以前的版本，Hadoop 2.0以后版本文件结构稍微有一些变化，因为目前我们还没有使用hadoop 2.0，所以后面... 阅读全文

posted @ 2014-07-10 10:05 shihuai355 阅读(2121) 评论(0) 推荐(0) 编辑

HDFS详解（1）

摘要： HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目，是Hadoop主要应用的一个分布式文件系统。实际上，Hadoop中有一个综合性的文件系统抽象，它提供了文件系统实现的各类接口，HDFS只是这个抽象文件系统的一个实例。Hadoop的文件系统Hado... 阅读全文

posted @ 2014-07-10 09:59 shihuai355 阅读(796) 评论(0) 推荐(0) 编辑

MapReduce工作机制

摘要： MapReduce任务执行总流程以下图5 是MapReduce作业详细的执行流程图。图 5 MapReduce 作业执行流程图1.在客户端（Client）编写MapReduce代码，配置作业，启动作业。这里需要注意的一点是：一个MapReduce作业在提交到Hadoop上之后，会进入完全地自动化执... 阅读全文

posted @ 2014-07-10 09:50 shihuai355 阅读(945) 评论(0) 推荐(0) 编辑

Hadoop体系结构

摘要： HDFS和Mapreduce是Hadoop的两大核心。整个Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持，MapReduce来实现分布式并行任务处理的程序支持。HDFSHDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个Data... 阅读全文

posted @ 2014-07-10 09:34 shihuai355 阅读(611) 评论(0) 推荐(0) 编辑

Hadoop 项目及结构

摘要：现在 Hadoop 已经发展成为包含多个子项目的集合。虽然其核心内容是 MapReduce 和Hadoop 分布式文件系统（HDFS），但 Hadoop 下的Common 、Avro、 Chukwa、Hive 、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。以... 阅读全文

posted @ 2014-07-10 09:32 shihuai355 阅读(1156) 评论(0) 推荐(0) 编辑

(转)Hadoop生态系统

摘要：以下图1是hadoop生态图，通俗的说，就是hadoop核心模块和衍生的子项目。图 1 Hadoop生态系统图由图可知，hadoop生态系统包括以下成员：① 各种浏览器，产生海量的Web数据；② Nutch项目，一个快速搜索海量网页的开源项目③ HDFS，Hadoop分布式文件系统，大数据的存储系... 阅读全文

posted @ 2014-07-10 09:25 shihuai355 阅读(354) 评论(0) 推荐(0) 编辑

2014年7月9日

Hadoop配置参数

摘要： Hadoop的配置文件解释hadoop-env.sh: 用于定义hadoop运行环境相关的配置信息，比如配置JAVA_HOME环境变量、为hadoop的JVM指定特定的选项、指定日志文件所在的目录路径以及master和slave文件的位置等；core-site.xml: 用于定义系统级别的参数，它作... 阅读全文

posted @ 2014-07-09 15:52 shihuai355 阅读(320) 评论(0) 推荐(0) 编辑

2014年7月8日

HDFS详解（2）——HDFS中的读写数据流

摘要： 1.文件的读取在客户端执行读取操作时，客户端和HDFS交互过程以及NameNode和各DataNode之间的数据流是怎样的？下面将围绕图1进行具体讲解。图 1 客户端从HDFS中读取数据1）客户端通过调用FileSystem对象中的open()函数来读取它做需要的数据。FileS... 阅读全文

posted @ 2014-07-08 21:23 shihuai355 阅读(4320) 评论(0) 推荐(0) 编辑

Yarn（MapReduce V2）

摘要：这里我们先说一下MapReduce V1的局限性：JobTracker单点瓶颈。MapReduce中的JobTracker负责作业的分发、管理和调度，同时还必须和集群中所有的节点保持Heartbeat通信，了解机器的运行状态和资源情况。很明显，MapReduce中独一无二的JobTracker负责了... 阅读全文

posted @ 2014-07-08 21:22 shihuai355 阅读(997) 评论(0) 推荐(0) 编辑

公告