Hadoop学习笔记
1.Hadoop安装
Apache的国内镜像地址:
地址1:http://mirror.bit.edu.cn/apache/
地址2:https://mirrors.tuna.tsinghua.edu.cn/apache
2.HDFS(Hadoop Distributed File System)
2.1 HDFS基本概念
HDFS的文件被分成块(Block)进行存储,HDFS块默认大小是64MB,块是整个文件存储处理的逻辑单元
HDFS中有两类节点NameNode和DataNode
namenode:
是管理节点,存放文件元数据
元数据包含两个部分:
-
文件与数据块的映射表
-
数据块与数据节点的映射表
datanode:
是hdfs的工作节点,存放数据块
2.2 数据管理策略
1.每个数据保留三份,两份存储在一台机器上,另外一份存储在另一台机器上。确保数据安全可靠
2.心跳检测
DataNode定期向NameNode发送心跳检测,是否宕机,挂掉,作为安全检测;
3.二级NameNode
当NameNode挂掉SecondaryNameNode会替代其位置
2.3 HDFS读取文件流程
客户端发送文件读请求——>namenode返回元数据(从哪些datanode找到)——>客户端读取block,下载下来之后组装;
客户端文件拆分成block——>通知namenode返回可用的、有足够磁盘空间的datanode——>客户端对block进行写入——>流水线复制——>更新元数据 ;
3.MapReduce
3.1 MapReduce的原理
mapReduce:分而治之的原理,既将大的任务分解成各个小的任务,既所谓的map,然后将各个小任务的处理结果进行合并,合并汇总称之为reduce.
1、mapreduce是一个并行计算的框架;
2、map将任务分解成多个子任务,reduce将子任务并行执行后合并结果;
3、mapreduce的过程:input split->shuffle->output。
4、shuffle机制
- map task是由并发数决定的,有多少个切片就启动多少个map task
- 切片是逻辑概念,指文件中数据偏移量的范围
- 切片的具体大小应该根据文件的大小来调整
3.2 MapReduce的运行流程
MapReduce作业执行过程
MapReduce 容错机制
- 重复执行,一次任务失败,会进行重试,4次
- 推测执行,单个任务执行慢时,推测其可能出现故障,再另起一个同样的任务,并行执行,哪个先执行完使用哪个
JobTracker 功能职责
- 作业调度
- 分配任务,监控任务执行进度
- 监控TaskTracker的状态
4.YARN
(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
5.Hadpoop生态
作者:Rest探路者
出处:http://www.cnblogs.com/Java-Starter/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意请保留此段声明,请在文章页面明显位置给出原文连接
Github:https://github.com/cjy513203427
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?