摘要:
一、HA概述 HA(High Available)即高可用(7*24小时不中断服务),实现高可用最关键的策略就是消除单点故障。HA严格地来说应该分成各个组件的HA机制,HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。NameNode 阅读全文
摘要:
一、Hadoop数据压缩 1.1 概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提供了网络带宽和磁盘空间的效率。在运行MR程序时,IO操作、网络数据传输、Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘 阅读全文
摘要:
一、Join多种应用 1.1 Reduce Join Reduce Join工作原理: Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作:在Reduce端以连 阅读全文
摘要:
一、MapReduce工作流程 MapTask和Shuffle阶段: ReduceTask阶段: 1.1 MapTask工作机制 Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个KV。 Map阶段:该节点主要是将解析出的KV交给用户编写ma 阅读全文
摘要:
一、MapReduce概述 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架; MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 1.1 MapReduce优点 阅读全文
摘要:
一、DataNode工作机制 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件:一个是数据本身,另一个是元数据包括数据块的长度、块数据校验和,以及时间戳。 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 心跳是每3秒一次 阅读全文
摘要:
一、NN和2NN的工作机制 NameNode元数据的存储: NameNode中存储的元数据经常需要被随机访问,还要响应客户请求,这样效率必然会很低。因此,元数据需要存放在内存中,但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。 这样又会带来 阅读全文
摘要:
一、HDFS写数据流程 1.1 剖析文件写入 HDFS写数据流程,如图所示: 客户端通过DIstributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否存在,父目录是否存在 NameNode返回是否可以上传 客户端对上传文件进行拆分为块,客户端请求第一 阅读全文
摘要:
一、HDFS概述 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种 1.1 HDFS定义 HDFS (Hadoop Distrib 阅读全文
摘要:
一、本地运行模式 1.1 官方Grep案例 ① 创建在hadoop-2.7.2文件下面创建一个input文件夹 [root@hadoop103 hadoop-2.7.2]# mkdir input ② 将Hadoop的xml配置文件复制到input [root@hadoop103 hadoop-2. 阅读全文