Hadoop学习笔记

1.Hadoop安装

Apache的国内镜像地址:

地址1:http://mirror.bit.edu.cn/apache/

地址2:https://mirrors.tuna.tsinghua.edu.cn/apache

Hadoop安装教程

2.HDFS(Hadoop Distributed File System)

2.1 HDFS基本概念

HDFS的文件被分成块(Block)进行存储,HDFS块默认大小是64MB,块是整个文件存储处理的逻辑单元

HDFS中有两类节点NameNode和DataNode

namenode:

是管理节点,存放文件元数据

元数据包含两个部分:

  1. 文件与数据块的映射表

  2. 数据块与数据节点的映射表

datanode:

是hdfs的工作节点,存放数据块

2.2 数据管理策略

1.每个数据保留三份,两份存储在一台机器上,另外一份存储在另一台机器上。确保数据安全可靠

2.心跳检测

DataNode定期向NameNode发送心跳检测,是否宕机,挂掉,作为安全检测;

3.二级NameNode

当NameNode挂掉SecondaryNameNode会替代其位置

2.3 HDFS读取文件流程

客户端发送文件读请求——>namenode返回元数据(从哪些datanode找到)——>客户端读取block,下载下来之后组装;

 

客户端文件拆分成block——>通知namenode返回可用的、有足够磁盘空间的datanode——>客户端对block进行写入——>流水线复制——>更新元数据 ;

 

3.MapReduce

3.1 MapReduce的原理

 mapReduce:分而治之的原理,既将大的任务分解成各个小的任务,既所谓的map,然后将各个小任务的处理结果进行合并,合并汇总称之为reduce.

1、mapreduce是一个并行计算的框架;

2、map将任务分解成多个子任务,reduce将子任务并行执行后合并结果;

3、mapreduce的过程:input split->shuffle->output。

 

 

4、shuffle机制

  1. map task是由并发数决定的,有多少个切片就启动多少个map task
  2. 切片是逻辑概念,指文件中数据偏移量的范围
  3. 切片的具体大小应该根据文件的大小来调整

 

 

3.2 MapReduce的运行流程

MapReduce作业执行过程

MapReduce 容错机制

  1. 重复执行,一次任务失败,会进行重试,4次
  2. 推测执行,单个任务执行慢时,推测其可能出现故障,再另起一个同样的任务,并行执行,哪个先执行完使用哪个

JobTracker 功能职责

  1. 作业调度
  2. 分配任务,监控任务执行进度
  3. 监控TaskTracker的状态

4.YARN

(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

 

5.Hadpoop生态

 

posted @   Rest探路者  阅读(223)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
levels of contents
点击右上角即可分享
微信分享提示