大数据面试题V3.0 -- MapReduce部分
MapReduce部分
-
介绍下MapReduce
-
MapReduce优缺点
-
MapReduce架构
-
MapReduce工作原理
-
MapReduce哪个阶段最费时间
-
MapReduce中的Combine是干嘛的?有什么好外?
-
MapReduce为什么一定要有环型缓冲区
-
MapReduce为什么一定要有Shuffle过程
-
MapReduce的Shuffle过程及其优化
-
Reduce怎么知道去哪里拉Map结果集?
-
Reduce阶段都发生了什么,有没有进行分组
-
shuffle为什么要排序?
-
说一下map是怎么到reduce的?
-
说一下你了解的用哪几种shuffle机制?
-
MapReduce的数据处理过程
-
mapjoin的原理(实现)?应用场景?
-
reducejoin如何执行(原理)
-
MapReduce为什么不能产生过多小文件
-
MapReduce分区及作用
-
ReduceTask数量和分区数量关系
-
Map的分片有多大
-
MapReduce join两个表的流程?
-
手撕一段简单的MapReduce程序
-
reduce任务什么时候开始?
-
MapReduce的reduce使用的是什么排序?
-
MapReduce怎么确定MapTask的数量?
-
Map数量由什么决定
-
MapReduce的map进程和reducer进程的ivm垃圾回收器怎么选择可以提高吞吐量?
-
MapReduce的task数目划分
-
MapReduce作业执行的过程中,中间的数据会存在什么地方?不会存在内存中么?
-
Mapper端进行combiner之后,除了速度会提升,那从Mapper端到Reduece端的数据量会怎么变?
-
map输出的数据如何超出它的小文件内存之后,是落地到磁盘还是落地到HDFS中?
-
Map到Reduce默认的分区机制是什么?
-
结合wordcount述说MapReduce,具体各个流程,map怎么做,reduce怎么做
-
MapReduce数据倾斜产生的原因及其解决方案
-
Map Join为什么能解决数据倾斜
-
MapReduce运行过程中会发生OOM,OOM发生的位置?
-
MapReduce用了几次排序,分别是什么?
-
MapReduce压缩方式
-
MapReduce中怎么处理一个大文件