【大数据面试】【框架】Hadoop-入门、HDFS

一、入门

1、常用端口号

2.x

50070：查看HDFS Web-UI

8088：查看MapReduce运行情况

19888：历史服务器

9000：hdfs客户端访问集群

50090：SecondaryNameNode

3.x：

50070-->9870

9000-->8020

3、Hadoop的8个配置文件（-site.xml、sh）

4个组成模块（common、hdfs、yarn、MapReduce）

common-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml

hadoop-env.sh yarn-env.sh mapred-env.sh slaves（不能有空行、不能有空格）

二、HDFS

1、HDFS的读写流程（笔试题）

Client-->NameNode（元数据）-->DataNode

2、HDFS的小文件问题

1）小文件过多会带来哪些问题（会产生哪些影响）

（压缩前：一亿个小文件，就是一亿个*150个字节）

（压缩后：压缩成一个文件，即1*150字节）

（压缩方式：har归档到一个文件内《用的比较多》、自定义InputFormat，把数据放置sequenceFile中取）

【128G的nameNode能存储多少个文件块？==》128G/150字节=128*1024*1024*1024（byte）/150≈9亿】

（默认一个文件一个切片）

（方式1：企业采用har归档，将小文件归档，或自定义InputFormat，把数据放入sequenceFile内部）

（方式2：采用CombineInputFormat先对文件聚合，聚合后再对文件切片）

解决：采用JVM重用

开始-执行任务-结束-开始-执行任务-结束==》开始-执行任务-执行任务-执行任务-执行任务-结束

如果没有小文件场景，就不要开启小文件，不然会锁死线程

（配置文件set JVM=true）

三、MapReduce

四、Yarn

posted @ 2021-12-09 21:36 哥们要飞阅读(48) 评论(0) 编辑收藏举报

刷新页面返回顶部

哥们要飞的blog