大数据相关

 

一、 写出hadoop集群常用进程以及进程含义

  1、Namenode
    它是Hadoop 中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问。
  2、Datanode
    它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一个 datanode 守护进程。
  3、secondaryNameNode
    它不是 namenode 的冗余守护进程,而是提供周期检查点和清理任务。 出于对可扩展性和容错性等考虑,我们一般将SecondaryNameNode运行在一台非NameNode的机器上。
  4、ResourceManager
    负责调度 DataNode上的工作。每个 DataNode有一个NodeManager,它们执行实际工作。
   5、NodeManager
    负责执行ResourceManager分发的任务

2.Hadoop安装部署需要修改的配置文件,以及常用端口,举例说明
  hadoop-env.sh hadoop jdk配置
  core-site.xml hadoop核心文件-配置hadoop的命名服务和tmp目录和zookeeper集群
  hdfs-site.xml 配置通信端口 http端口等。
  mapred-site.xml 配置mapreduce的资源调度框架 yarn
  yarn-site.xml yarn相关配置
  Slaves 文件 指定hadoop集群的子节点位置
  端口:
  50070 namenode的web访问端口
  9000 RPC通信端口
  2181 zookeeper端口
3.使用过的hadoop shell 命令
  Hadoop fs -ls /
  Hadoop fs -mkdir /test
  Hadoop fs -cat /

posted @ 2020-03-16 20:41  鱼丸粗面没鱼丸  阅读(94)  评论(0编辑  收藏  举报