摘要: 1.画出你们的大数据架构,然后针对架构提问,如何做到精准一次、小文件规避等2.为什么会产生小文件3.为什么Hadoop不怕数据量大,却怕文件小4.你能告诉我路径占不占元数据内存,如果占,占多少5.小文件会产生什么样的问题,产生的问题会对你们的集群产生什么样的影响6.画出Yarn工程流程7.mr和sp 阅读全文
posted @ 2019-06-21 09:10 任重而道远的小蜗牛 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 第二阶段总结1.你们使用的spark运行模式,Spark On Yarn 的工作流程,client和cluster的区别(driver再哪里)2.Spark用的版本?Spark内存管理,画出来,然后给一个案例,excutor要申请300M内存的过程。新版是跑不起来的原来是1.63.直接看面试官电脑上 阅读全文
posted @ 2019-06-21 09:10 任重而道远的小蜗牛 阅读(382) 评论(0) 推荐(0) 编辑
摘要: checkpoint原理机制 当RDD使用cache机制从内存中读取数据,如果数据没有读到,会使用checkpoint机制读取数据。此时如果没有checkpoint机制,那么就需要找到父RDD重新计算数据了,因此checkpoint是个很重要的的容错机制。checkpoint就是对于一个RDDcha 阅读全文
posted @ 2019-06-21 09:06 任重而道远的小蜗牛 阅读(392) 评论(0) 推荐(0) 编辑