摘要: 既然HDFS 是存取数据的分布式文件系统,那么对HDFS的操作,就是对文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS 的操作命令类似于Linux 的shell 对文件的操作,只是在HDFS中,hadoop fs是主命令,其他像ls,mv,cp都是... 阅读全文
posted @ 2014-07-10 10:07 shihuai355 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 常用管理命令Hadoop管理员的常用命令。启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.shbalancer运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程。... 阅读全文
posted @ 2014-07-10 10:06 shihuai355 阅读(217) 评论(0) 推荐(0) 编辑
摘要: HDFS中的NameNode、DataNode、Secondery NameNode是如何在磁盘上组织和存储持久化数据的?下面将分别进行介绍。注意,这里主要介绍的是Hadoop 2.0以前的版本,Hadoop 2.0以后版本文件结构稍微有一些变化,因为目前我们还没有使用hadoop 2.0,所以后面... 阅读全文
posted @ 2014-07-10 10:05 shihuai355 阅读(2121) 评论(0) 推荐(0) 编辑
摘要: HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是Hadoop主要应用的一个分布式文件系统。实际上,Hadoop中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口,HDFS只是这个抽象文件系统的一个实例。Hadoop的文件系统Hado... 阅读全文
posted @ 2014-07-10 09:59 shihuai355 阅读(796) 评论(0) 推荐(0) 编辑
摘要: MapReduce任务执行总流程以下图5 是MapReduce作业详细的执行流程图。 图 5 MapReduce 作业执行流程图1.在客户端(Client)编写MapReduce代码,配置作业,启动作业。这里需要注意的一点是:一个MapReduce作业在提交到Hadoop上之后,会进入完全地自动化执... 阅读全文
posted @ 2014-07-10 09:50 shihuai355 阅读(945) 评论(0) 推荐(0) 编辑
摘要: HDFS和Mapreduce是Hadoop的两大核心。整个Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持,MapReduce来实现分布式并行任务处理的程序支持。HDFSHDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个Data... 阅读全文
posted @ 2014-07-10 09:34 shihuai355 阅读(611) 评论(0) 推荐(0) 编辑
摘要: 现在 Hadoop 已经发展成为包含多个子项目的集合。虽然其核心内容是 MapReduce 和Hadoop 分布式文件系统(HDFS),但 Hadoop 下的Common 、Avro、 Chukwa、Hive 、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。以... 阅读全文
posted @ 2014-07-10 09:32 shihuai355 阅读(1156) 评论(0) 推荐(0) 编辑
摘要: 以下图1是hadoop生态图,通俗的说,就是hadoop核心模块和衍生的子项目。 图 1 Hadoop生态系统图由图可知,hadoop生态系统包括以下成员:① 各种浏览器,产生海量的Web数据;② Nutch项目,一个快速搜索海量网页的开源项目③ HDFS,Hadoop分布式文件系统,大数据的存储系... 阅读全文
posted @ 2014-07-10 09:25 shihuai355 阅读(354) 评论(0) 推荐(0) 编辑