随笔分类 -  hadoop

hadoop之 Hadoop2.2.0中HDFS的高可用性实现原理
摘要:在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了H 阅读全文

posted @ 2017-09-06 21:58 张冲andy 阅读(612) 评论(0) 推荐(0) 编辑

hadoop 之Hadoop生态系统
摘要:1、Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。 下图为hadoop的生态系统: 2、HDFS(Hadoop分布式文件系统) 源自于Google 阅读全文

posted @ 2017-09-06 17:39 张冲andy 阅读(372) 评论(0) 推荐(0) 编辑

Hbase 之 HBase 的整体架构
摘要:HBase 系统架构图 组成部件说明 Client: 使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与HRegionServer进行数据读写类操作 Zookeeper: Zookeeper Quorum 阅读全文

posted @ 2017-08-30 11:55 张冲andy 阅读(670) 评论(0) 推荐(0) 编辑

hadoop之 hadoop用途方向
摘要:大数据量存储:分布式存储 日志处理: Hadoop擅长这个 海量计算: 并行计算 ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库 使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统 机器学习: 比如Apache 阅读全文

posted @ 2017-08-28 21:25 张冲andy 阅读(460) 评论(0) 推荐(0) 编辑

hadoop之 HDFS fs 命令总结
摘要:版本:Hadoop 2.7.4 -- 查看hadoop fs帮助信息[root@hadp-master sbin]# hadoop fsUsage: hadoop fs [generic options][-appendToFile <localsrc> ... <dst>][-cat [-igno 阅读全文

posted @ 2017-08-28 00:22 张冲andy 阅读(4026) 评论(1) 推荐(0) 编辑

Hadoop 2.7.4 关闭与启动
摘要:环境说明:[root@hadp-master sbin]# hadoop versionHadoop 2.7.4 一、 脚本封装全部一起启动、关闭1.1 启动[root@hadp-master sbin]# ./start-all.sh This script is Deprecated. Inst 阅读全文

posted @ 2017-08-27 21:44 张冲andy 阅读(1480) 评论(0) 推荐(0) 编辑

CentOS7下搭建hadoop2.7.3完全分布式
摘要:这里搭建的是3个节点的完全分布式,即1个nameNode,2个dataNode,分别如下: CentOS-master nameNode 192.168.11.128 CentOS-node1 dataNode 192.168.11.131 CentOS-node2 dataNode 192.168 阅读全文

posted @ 2017-08-27 17:01 张冲andy 阅读(8714) 评论(2) 推荐(1) 编辑

hadoop之 Zookeeper 分布式应用程序协调服务
摘要:(1) Zookeeper 在 Hadoop 集群中的作用 Zookeeper 是分布式管理协作框架,Zookeeper 集群用来保证 Hadoop 集群的高可用,(高可用的含义是:集群中就算有一部分服务器宕机,也能保证正常地对外提供服务。) (2) Zookeeper 保证高可用的原理 Zooke 阅读全文

posted @ 2017-08-13 17:39 张冲andy 阅读(333) 评论(0) 推荐(0) 编辑

Hadoop 之 NameNode 元数据原理
摘要:在对NameNode节点进行格式化时,调用了FSImage的saveFSImage()方法和FSEditLog.createEditLogFile()存储当前的元数据。Namenode主要维护两个文件,一个是fsimage,一个是editlog。 fsimage :保存了最新的元数据检查点,包含了整 阅读全文

posted @ 2017-08-13 12:58 张冲andy 阅读(7702) 评论(0) 推荐(0) 编辑

Hadoop体系结构之 Yarn
摘要:1.1 YARN 基本架构 YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。 其中ResourceManager负责整 阅读全文

posted @ 2017-08-12 18:48 张冲andy 阅读(703) 评论(0) 推荐(0) 编辑

Hadoop体系结构之 Mapreduce
摘要:MR框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的不同的从节点上。主节点监视它们的执行情况,并重新执行之前失败的任务。从节点仅负责由主节点指派的任务。当一个Job被提交时,Job 阅读全文

posted @ 2017-08-12 18:46 张冲andy 阅读(490) 评论(0) 推荐(0) 编辑

Hadoop体系结构之 HDFS
摘要:HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能,在最新的版本中就已经实现了)。NameNode作为主服 阅读全文

posted @ 2017-08-12 18:34 张冲andy 阅读(928) 评论(0) 推荐(0) 编辑

导航