【Hadoop面试】基础概念、HDFS、MapReduce、Yarn、实战

一、Hadoop概念及架构

1、是否看过Hadoop源码

2、正常工作的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用分别是什么

3、hadoop和spark中的文件缓存方式

4、hadoop各组件之间通信Rpc协议

5、Hadoop的读数据流程

6、对Hadoop生态圈中的哪些技术比较了解

其他问法:你了解的hadoop生态圈的框架,及其大概在怎样的一个位置

7、列出几个配置文件优化hadoop,怎么做数据平衡

8、关于hadoop相关的调优

9、Hadoop启动的时候都有哪些进程,进程名称

10、Hadoop是什么

11、hadoop的块大小,从哪个版本开始是128M

12、Hadoop数据倾斜问题

13、hadoop中定义的主要共用InputFormats中,哪一个是默认值

14、hadoop任务中,什么是InputSplit?

15、Hadoop中job和Tasks之间的区别是什么?

16、请描述hadoop2.x中HDFS的高可用架构(high availability)是如何实现的。

17、简述Apache原生Hadoop,CDH,HDP的区别。

18、Hadoop的分片机制 为什么进行分片 有啥好处 是基于什么原理分片的

19、Hadoop保存文件的特性 :分片 备份

20、hadoop中的combine函数的作用?

21、hadoop的TextInputFormat作用是什么,如何自定义实现

22、请说明hadoop为何不适合存情大量小文件。假如有小文件存储需求如何优化。

23、常见端口号和配置文件

24、hadoop shuffle过程

25、Hadoop的适用场景?比如说适用于OLAP还是OLTP

二、HDFS

1、传输过程中DataNode挂掉怎么办

2、介绍一下HDFS的存储过程

3、 HDFS是一个分布式文件系统,其适合的读写任务是

4、HDFS 的体系结构

5、传统的关系型数据库和Hadoop有什么区别?

6、怎么查看某个目录下的小文件

三、MapReduce

1、MapReduce工作的各个阶段

2、如果没有定义partitioner,那数据在被送达reduce前是如何被分区的?

3、map端的一个分区数据如果有大量的重复,怎么去重?

4、手写MapReduce

四、Yarn

1、namenode、datanode、secondnamenode怎么协作的?

2、hadoop的namenode.2NN.hafs的文件 上传

五、实操部分

1、详解Hadoop的WordCount

2、hadoop二次排序

3、小表关联大表怎么实现的|切片,shuffle,reduce阶段,map阶段,Yarn流程

4、hadoop 实现TopN

5、Hadoop是自己搭的吗,用的什么版本?hadoop、flume、kafka、sqoop、spark版本号

6、有没有使用OZ调度hadoop任务

7、hadoop命令:创建、查看文件、列出文件状态

8、在处理10pb级别的数据时,大概需要的集群配置,计算瓶颈,解决方案

posted @ 2022-01-13 12:37  哥们要飞  阅读(78)  评论(0编辑  收藏  举报