hadoop(一)

概念:
Hadoop是一种开源的适合大数据的分布式存储和处理的平台。

hadoop的作用:
1)搜索引擎:为了针对大规模的网页快速建立索引;

 2)大数据存储:利用Hadoop的分布式存储能力,例如数据备份、数据仓库等;

 3)大数据处理:利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等;

hadoop三种模式

  1. 单机模式
  2. 伪分布模式
  3. 全分布模式

hadoop文件管理系统hdfs
特点:
保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。
运行在廉价的机器上。
适合大数据的处理。HDFS默认会将文件分割成block,64M为1个block。然后将block按键值对存储在HDFS上并将键值对的映射存到内存中。如果小文件太多,那内存的负担会很重。
** HDFS中的两个重要角色:**
namenode 与 datanode

[Namenode]

  1)管理文件系统的命名空间。

  2)记录 每个文件数据快在各个Datanode上的位置和副本信息。

  3)协调客户端对文件的访问。

  4)记录命名空间内的改动或者空间本省属性的改动。

  5)Namenode 使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间,包括文件映射,文件属性等。

[Datanode]

  1)负责所在物理节点的存储管理。

  2)一次写入,多次读取(不修改)。

  3)文件由数据库组成,一般情况下,数据块的大小为64MB。

  4)数据尽量散步到各个节点。
namenode 是 datanode的管理者。

一个namenode可以管理多个datanode节点。datanode又可以去控制本地的磁盘数据读写。

** 热备份与冷备份的概念:**
热备份:b是a的热备份,a坏掉,b可以替代。
冷备份:b是a的热备份,a坏掉,b不能替代。b只能减少损失(只含少量(部分)a的备份)。

posted @   景伟·郭  阅读(39)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现
点击右上角即可分享
微信分享提示