hadoop（一）

概念：
Hadoop是一种开源的适合大数据的分布式存储和处理的平台。

hadoop的作用：
1）搜索引擎：为了针对大规模的网页快速建立索引；

　2）大数据存储：利用Hadoop的分布式存储能力，例如数据备份、数据仓库等；

　3）大数据处理：利用Hadoop的分布式处理能力，例如数据挖掘、数据分析等；

hadoop三种模式

单机模式
伪分布模式
全分布模式

hadoop文件管理系统hdfs
特点：
保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。
运行在廉价的机器上。
适合大数据的处理。HDFS默认会将文件分割成block，64M为1个block。然后将block按键值对存储在HDFS上并将键值对的映射存到内存中。如果小文件太多，那内存的负担会很重。
** HDFS中的两个重要角色：**
namenode 与 datanode

[Namenode]

　　1）管理文件系统的命名空间。

　　2）记录每个文件数据快在各个Datanode上的位置和副本信息。

　　3）协调客户端对文件的访问。

　　4）记录命名空间内的改动或者空间本省属性的改动。

　　5）Namenode 使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间，包括文件映射，文件属性等。

[Datanode]

　　1）负责所在物理节点的存储管理。

　　2）一次写入，多次读取（不修改）。

　　3）文件由数据库组成，一般情况下，数据块的大小为64MB。

　　4）数据尽量散步到各个节点。
namenode 是 datanode的管理者。

一个namenode可以管理多个datanode节点。datanode又可以去控制本地的磁盘数据读写。

** 热备份与冷备份的概念：**
热备份：b是a的热备份，a坏掉，b可以替代。
冷备份：b是a的热备份，a坏掉，b不能替代。b只能减少损失（只含少量（部分）a的备份）。

posted @ 2022-06-01 16:49 景伟·郭阅读(61) 评论(0) 收藏举报

刷新页面返回顶部

郭大侠

问问自己有没有坚持写博客

hadoop（一）

公告