Hadoop介绍
Hadoop介绍
第一节:简介
hadoop基于普通廉价机的提供高可用、高扩展、高容错的分布式存储计算服务的。
hadoop设计的时候考虑到集群中任何一个节点任何时间都有可能出故障 hadoop已经帮你规避了。
第二节:hadoop产生背景
一、google
海量的网页数据如何存储的问题?
海量网页数据如何计算?
海量网页数据快速查询?
之后在2003年发布了3篇论文:
GFS---- GOOGLE FILE SYSTEM google的文件系统
MAPREDUCE--- google的分布式计算方案
BIGTABLE--- google的分布式数据库
二、Doug Cutting
doug cutting 将google的3篇论文使用java语言实现了并且开源贡献给apache
GFS--- HDFS
MAPREDUCE---MAPREDUCE
BIGTABLE---HBASE
hadoop1.0 分为2个模块:hdfs、mapreduce
三、hadoop解决的问题
海量数据的存储、海量数据的计算
第三节:hadoop包含代码模块
hadoop common: 工具类
hdfs (hadoop distributed file system):hadoop的分布式文件系统
mapreduce:hadoop的分布式计算服务
yarn:hadoop的分布式资源调度框架
第四节:hadoop包含功能模块
一、 hdfs
1、作用
分布式存储,一主多从一助理。
2、namenode
分布式存储的老大,管理每个节点上存储数据的编号,对应关系
3、datanode
负责真正的数据存储的,真正干活的
4、secondarynamenode
namenode的助理,备份namenode的数据 ,帮助namenode减压。
二、mapreduce
分布式计算程序,安装完成没有对应进程
三、yarn
1、作用
服务于计算程序的,主从。
2、resourcemanager
资源调度的老大(只能一个),决定哪一个计算任务需要多少资源在哪一个节点分配资源的。
3、nodemanager
提供资源运行任务的(可以多个)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
2018-07-21 CSS Ul(列表样式)
2018-07-21 CSS Link(链接)
2018-07-21 CSS Fonts(字体)
2018-07-21 CSS Text(文本)