博客园 首页 私信博主 显示目录 隐藏目录 管理 动画

大数据面试题V3.0 -- MapReduce部分

 

MapReduce部分

  1. 介绍下MapReduce

  2. MapReduce优缺点

  3. MapReduce架构

  4. MapReduce工作原理

  5. MapReduce哪个阶段最费时间

  6. MapReduce中的Combine是干嘛的?有什么好外?

  7. MapReduce为什么一定要有环型缓冲区

  8. MapReduce为什么一定要有Shuffle过程

  9. MapReduce的Shuffle过程及其优化

  10. Reduce怎么知道去哪里拉Map结果集?

  11. Reduce阶段都发生了什么,有没有进行分组

  12. MapReduce Shuffle的排序算法

  13. shuffle为什么要排序?

  14. 说一下map是怎么到reduce的?

  15. 说一下你了解的用哪几种shuffle机制?

  16. MapReduce的数据处理过程

  17. mapjoin的原理(实现)?应用场景?

  18. reducejoin如何执行(原理)

  19. MapReduce为什么不能产生过多小文件

  20. MapReduce分区及作用

  21. ReduceTask数量和分区数量关系

  22. Map的分片有多大

  23. MapReduce join两个表的流程?

  24. 手撕一段简单的MapReduce程序

  25. reduce任务什么时候开始?

  26. MapReduce的reduce使用的是什么排序?

  27. MapReduce怎么确定MapTask的数量?

  28. Map数量由什么决定

  29. MapReduce的map进程和reducer进程的ivm垃圾回收器怎么选择可以提高吞吐量?

  30. MapReduce的task数目划分

  31. MapReduce作业执行的过程中,中间的数据会存在什么地方?不会存在内存中么?

  32. Mapper端进行combiner之后,除了速度会提升,那从Mapper端到Reduece端的数据量会怎么变?

  33. map输出的数据如何超出它的小文件内存之后,是落地到磁盘还是落地到HDFS中?

  34. Map到Reduce默认的分区机制是什么?

  35. 结合wordcount述说MapReduce,具体各个流程,map怎么做,reduce怎么做

  36. MapReduce数据倾斜产生的原因及其解决方案

  37. Map Join为什么能解决数据倾斜

  38. MapReduce运行过程中会发生OOM,OOM发生的位置?

  39. MapReduce用了几次排序,分别是什么?

  40. MapReduce压缩方式

  41. MapReduce中怎么处理一个大文件

posted @ 2022-06-28 15:09  CHANG_09  阅读(193)  评论(0编辑  收藏  举报