Hadoop 十七

集群时间同步

  为了使三台服务器的时间一致,而且服务器没有连接外网的话,需要进行集群时间同步。一般虚拟机的时间是同步的,所以这个过程我们不需要配置。

下面开始学习Hadoop_HDFS

   hdfs解决海量问题的存储问题,是一个文件系统。用来存储文件,通过目录树来定位文件,分布式的,适合一次写入,多次读出。

   优点:

        1, 高容错性,自动保存多个副本

        2,适合处理大数据(文件规模,数据规模)

        3,可构建在廉价的机器上

    缺点:

        1,不适合低延时数据访问

        2,无法高效的对大量小文件进行存储

        3,不支持并发写入,文件随机修改

HDFS组成:

    NameNode(nn) :是Master,是主管,管理者

      1、管理HDFS的名称空间

      2、配置副本策略

      3、管理数据快(Block)映射信息

      4、处理客户端读写请求

    DaraNode:是Slave。执行NameNode实际的操作

      1、存储实际的数据快

      2、执行数据快的读/写操作

    Client:客户端

      1、文件切分

      2、与NameNode交互,获取文件的位置信息

      3、与DataNode交互,读取或者写入数据

      4、提供一些命令来管理HDFS,比如NameNode的格式化

      5、通过一些命令来访问HDFS,比如对HDFS的增删改查

      

    Secondary NameNode:辅助回复NameNode,并非热备

posted @   信2005-2赵磊  阅读(14)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 字符编码:从基础到乱码解决
· 提示词工程——AI应用必不可少的技术
点击右上角即可分享
微信分享提示