hadoop - 随笔分类(第2页) - 张冲andy

hadoop之 Hadoop2.2.0中HDFS的高可用性实现原理

摘要：在Hadoop2.0.0之前，NameNode(NN)在HDFS集群中存在单点故障（single point of failure），每一个集群中存在一个NameNode，如果NN所在的机器出现了故障，那么将导致整个集群无法利用，直到NN重启或者在另一台主机上启动NN守护线程。主要在两方面影响了H 阅读全文

posted @ 2017-09-06 21:58 张冲andy 阅读(612) 评论(0) 推荐(0) 编辑

hadoop 之Hadoop生态系统

摘要：1、Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和Mapreduce，hadoop2.0还包括YARN。下图为hadoop的生态系统： 2、HDFS（Hadoop分布式文件系统）源自于Google 阅读全文

posted @ 2017-09-06 17:39 张冲andy 阅读(372) 评论(0) 推荐(0) 编辑

Hbase 之 HBase 的整体架构

摘要：HBase 系统架构图组成部件说明 Client：使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与HRegionServer进行数据读写类操作 Zookeeper： Zookeeper Quorum 阅读全文

posted @ 2017-08-30 11:55 张冲andy 阅读(670) 评论(0) 推荐(0) 编辑

hadoop之 hadoop用途方向

摘要：大数据量存储：分布式存储日志处理: Hadoop擅长这个海量计算: 并行计算 ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache 阅读全文

posted @ 2017-08-28 21:25 张冲andy 阅读(460) 评论(0) 推荐(0) 编辑

hadoop之 HDFS fs 命令总结

摘要：版本：Hadoop 2.7.4 -- 查看hadoop fs帮助信息[root@hadp-master sbin]# hadoop fsUsage: hadoop fs [generic options][-appendToFile <localsrc> ... <dst>][-cat [-igno 阅读全文

posted @ 2017-08-28 00:22 张冲andy 阅读(4026) 评论(1) 推荐(0) 编辑

Hadoop 2.7.4 关闭与启动

摘要：环境说明：[root@hadp-master sbin]# hadoop versionHadoop 2.7.4 一、脚本封装全部一起启动、关闭1.1 启动[root@hadp-master sbin]# ./start-all.sh This script is Deprecated. Inst 阅读全文

posted @ 2017-08-27 21:44 张冲andy 阅读(1480) 评论(0) 推荐(0) 编辑

CentOS7下搭建hadoop2.7.3完全分布式

摘要：这里搭建的是3个节点的完全分布式，即1个nameNode，2个dataNode，分别如下： CentOS-master nameNode 192.168.11.128 CentOS-node1 dataNode 192.168.11.131 CentOS-node2 dataNode 192.168 阅读全文

posted @ 2017-08-27 17:01 张冲andy 阅读(8714) 评论(2) 推荐(1) 编辑

hadoop之 Zookeeper 分布式应用程序协调服务

摘要：(1) Zookeeper 在 Hadoop 集群中的作用 Zookeeper 是分布式管理协作框架，Zookeeper 集群用来保证 Hadoop 集群的高可用，（高可用的含义是：集群中就算有一部分服务器宕机，也能保证正常地对外提供服务。） (2) Zookeeper 保证高可用的原理 Zooke 阅读全文

posted @ 2017-08-13 17:39 张冲andy 阅读(333) 评论(0) 推荐(0) 编辑

Hadoop 之 NameNode 元数据原理

摘要：在对NameNode节点进行格式化时，调用了FSImage的saveFSImage()方法和FSEditLog.createEditLogFile()存储当前的元数据。Namenode主要维护两个文件，一个是fsimage，一个是editlog。 fsimage ：保存了最新的元数据检查点，包含了整阅读全文

posted @ 2017-08-13 12:58 张冲andy 阅读(7702) 评论(0) 推荐(0) 编辑

Hadoop体系结构之 Yarn

摘要：1.1 YARN 基本架构 YARN是Hadoop 2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整阅读全文

posted @ 2017-08-12 18:48 张冲andy 阅读(703) 评论(0) 推荐(0) 编辑

Hadoop体系结构之 Mapreduce

摘要：MR框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成。主节点负责调度构成一个作业的所有任务，这些任务分布在不同的不同的从节点上。主节点监视它们的执行情况，并重新执行之前失败的任务。从节点仅负责由主节点指派的任务。当一个Job被提交时，Job 阅读全文

posted @ 2017-08-12 18:46 张冲andy 阅读(490) 评论(0) 推荐(0) 编辑

Hadoop体系结构之 HDFS

摘要：HDFS采用主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的（在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能，在最新的版本中就已经实现了）。NameNode作为主服阅读全文

posted @ 2017-08-12 18:34 张冲andy 阅读(928) 评论(0) 推荐(0) 编辑

张冲andy

随笔分类 - hadoop