摘要: 常用管理命令Hadoop管理员的常用命令。启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.shbalancer运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程。... 阅读全文
posted @ 2014-07-10 10:06 shihuai355 阅读(217) 评论(0) 推荐(0) 编辑
摘要: HDFS中的NameNode、DataNode、Secondery NameNode是如何在磁盘上组织和存储持久化数据的?下面将分别进行介绍。注意,这里主要介绍的是Hadoop 2.0以前的版本,Hadoop 2.0以后版本文件结构稍微有一些变化,因为目前我们还没有使用hadoop 2.0,所以后面... 阅读全文
posted @ 2014-07-10 10:05 shihuai355 阅读(2121) 评论(0) 推荐(0) 编辑
摘要: HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是Hadoop主要应用的一个分布式文件系统。实际上,Hadoop中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口,HDFS只是这个抽象文件系统的一个实例。Hadoop的文件系统Hado... 阅读全文
posted @ 2014-07-10 09:59 shihuai355 阅读(796) 评论(0) 推荐(0) 编辑
摘要: MapReduce任务执行总流程以下图5 是MapReduce作业详细的执行流程图。 图 5 MapReduce 作业执行流程图1.在客户端(Client)编写MapReduce代码,配置作业,启动作业。这里需要注意的一点是:一个MapReduce作业在提交到Hadoop上之后,会进入完全地自动化执... 阅读全文
posted @ 2014-07-10 09:50 shihuai355 阅读(945) 评论(0) 推荐(0) 编辑
摘要: HDFS和Mapreduce是Hadoop的两大核心。整个Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持,MapReduce来实现分布式并行任务处理的程序支持。HDFSHDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个Data... 阅读全文
posted @ 2014-07-10 09:34 shihuai355 阅读(611) 评论(0) 推荐(0) 编辑
摘要: 现在 Hadoop 已经发展成为包含多个子项目的集合。虽然其核心内容是 MapReduce 和Hadoop 分布式文件系统(HDFS),但 Hadoop 下的Common 、Avro、 Chukwa、Hive 、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。以... 阅读全文
posted @ 2014-07-10 09:32 shihuai355 阅读(1156) 评论(0) 推荐(0) 编辑
摘要: 以下图1是hadoop生态图,通俗的说,就是hadoop核心模块和衍生的子项目。 图 1 Hadoop生态系统图由图可知,hadoop生态系统包括以下成员:① 各种浏览器,产生海量的Web数据;② Nutch项目,一个快速搜索海量网页的开源项目③ HDFS,Hadoop分布式文件系统,大数据的存储系... 阅读全文
posted @ 2014-07-10 09:25 shihuai355 阅读(354) 评论(0) 推荐(0) 编辑
摘要: Hadoop的配置文件解释hadoop-env.sh: 用于定义hadoop运行环境相关的配置信息,比如配置JAVA_HOME环境变量、为hadoop的JVM指定特定的选项、指定日志文件所在的目录路径以及master和slave文件的位置等;core-site.xml: 用于定义系统级别的参数,它作... 阅读全文
posted @ 2014-07-09 15:52 shihuai355 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 1.文件的读取在客户端执行读取操作时,客户端和HDFS交互过程以及NameNode和各DataNode之间的数据流是怎样的?下面将围绕图1进行具体讲解。 图 1 客户端从HDFS中读取数据1)客户端通过调用FileSystem对象中的open()函数来读取它做需要的数据。FileS... 阅读全文
posted @ 2014-07-08 21:23 shihuai355 阅读(4320) 评论(0) 推荐(0) 编辑
摘要: 这里我们先说一下MapReduce V1的局限性:JobTracker单点瓶颈。MapReduce中的JobTracker负责作业的分发、管理和调度,同时还必须和集群中所有的节点保持Heartbeat通信,了解机器的运行状态和资源情况。很明显,MapReduce中独一无二的JobTracker负责了... 阅读全文
posted @ 2014-07-08 21:22 shihuai355 阅读(997) 评论(0) 推荐(0) 编辑