hadoop(一)
概念:
Hadoop是一种开源的适合大数据的分布式存储和处理的平台。
hadoop的作用:
1)搜索引擎:为了针对大规模的网页快速建立索引;
2)大数据存储:利用Hadoop的分布式存储能力,例如数据备份、数据仓库等;
3)大数据处理:利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等;
hadoop三种模式
- 单机模式
- 伪分布模式
- 全分布模式
hadoop文件管理系统hdfs
特点:
保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。
运行在廉价的机器上。
适合大数据的处理。HDFS默认会将文件分割成block,64M为1个block。然后将block按键值对存储在HDFS上并将键值对的映射存到内存中。如果小文件太多,那内存的负担会很重。
** HDFS中的两个重要角色:**
namenode 与 datanode
[Namenode]
1)管理文件系统的命名空间。
2)记录 每个文件数据快在各个Datanode上的位置和副本信息。
3)协调客户端对文件的访问。
4)记录命名空间内的改动或者空间本省属性的改动。
5)Namenode 使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间,包括文件映射,文件属性等。
[Datanode]
1)负责所在物理节点的存储管理。
2)一次写入,多次读取(不修改)。
3)文件由数据库组成,一般情况下,数据块的大小为64MB。
4)数据尽量散步到各个节点。
namenode 是 datanode的管理者。
一个namenode可以管理多个datanode节点。datanode又可以去控制本地的磁盘数据读写。
** 热备份与冷备份的概念:**
热备份:b是a的热备份,a坏掉,b可以替代。
冷备份:b是a的热备份,a坏掉,b不能替代。b只能减少损失(只含少量(部分)a的备份)。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现