2014 年 7月 10 日随笔档案 - shihuai355

2014年7月10日

摘要：既然HDFS 是存取数据的分布式文件系统，那么对HDFS的操作，就是对文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS 的操作命令类似于Linux 的shell 对文件的操作，只是在HDFS中，hadoop fs是主命令，其他像ls,mv,cp都是... 阅读全文

posted @ 2014-07-10 10:07 shihuai355 阅读(270) 评论(0) 推荐(0) 编辑

Hadoop shell

摘要：常用管理命令Hadoop管理员的常用命令。启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.shbalancer运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程。... 阅读全文

posted @ 2014-07-10 10:06 shihuai355 阅读(217) 评论(0) 推荐(0) 编辑

HDFS详解（3）——HDFS文件结构

摘要： HDFS中的NameNode、DataNode、Secondery NameNode是如何在磁盘上组织和存储持久化数据的？下面将分别进行介绍。注意，这里主要介绍的是Hadoop 2.0以前的版本，Hadoop 2.0以后版本文件结构稍微有一些变化，因为目前我们还没有使用hadoop 2.0，所以后面... 阅读全文

posted @ 2014-07-10 10:05 shihuai355 阅读(2121) 评论(0) 推荐(0) 编辑

HDFS详解（1）

摘要： HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目，是Hadoop主要应用的一个分布式文件系统。实际上，Hadoop中有一个综合性的文件系统抽象，它提供了文件系统实现的各类接口，HDFS只是这个抽象文件系统的一个实例。Hadoop的文件系统Hado... 阅读全文

posted @ 2014-07-10 09:59 shihuai355 阅读(796) 评论(0) 推荐(0) 编辑

MapReduce工作机制

摘要： MapReduce任务执行总流程以下图5 是MapReduce作业详细的执行流程图。图 5 MapReduce 作业执行流程图1.在客户端（Client）编写MapReduce代码，配置作业，启动作业。这里需要注意的一点是：一个MapReduce作业在提交到Hadoop上之后，会进入完全地自动化执... 阅读全文

posted @ 2014-07-10 09:50 shihuai355 阅读(945) 评论(0) 推荐(0) 编辑

Hadoop体系结构

摘要： HDFS和Mapreduce是Hadoop的两大核心。整个Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持，MapReduce来实现分布式并行任务处理的程序支持。HDFSHDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个Data... 阅读全文

posted @ 2014-07-10 09:34 shihuai355 阅读(611) 评论(0) 推荐(0) 编辑

Hadoop 项目及结构

摘要：现在 Hadoop 已经发展成为包含多个子项目的集合。虽然其核心内容是 MapReduce 和Hadoop 分布式文件系统（HDFS），但 Hadoop 下的Common 、Avro、 Chukwa、Hive 、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。以... 阅读全文

posted @ 2014-07-10 09:32 shihuai355 阅读(1156) 评论(0) 推荐(0) 编辑

(转)Hadoop生态系统

摘要：以下图1是hadoop生态图，通俗的说，就是hadoop核心模块和衍生的子项目。图 1 Hadoop生态系统图由图可知，hadoop生态系统包括以下成员：① 各种浏览器，产生海量的Web数据；② Nutch项目，一个快速搜索海量网页的开源项目③ HDFS，Hadoop分布式文件系统，大数据的存储系... 阅读全文

posted @ 2014-07-10 09:25 shihuai355 阅读(354) 评论(0) 推荐(0) 编辑

公告