2019 年 6月 21 日随笔档案 - 任重而道远的小蜗牛

2019年6月21日

摘要： 1.画出你们的大数据架构，然后针对架构提问，如何做到精准一次、小文件规避等2.为什么会产生小文件3.为什么Hadoop不怕数据量大，却怕文件小4.你能告诉我路径占不占元数据内存，如果占，占多少5.小文件会产生什么样的问题，产生的问题会对你们的集群产生什么样的影响6.画出Yarn工程流程7.mr和sp 阅读全文

posted @ 2019-06-21 09:10 任重而道远的小蜗牛阅读(308) 评论(0) 推荐(0) 编辑

第二阶段总结

摘要：第二阶段总结1.你们使用的spark运行模式，Spark On Yarn 的工作流程，client和cluster的区别（driver再哪里）2.Spark用的版本？Spark内存管理，画出来，然后给一个案例，excutor要申请300M内存的过程。新版是跑不起来的原来是1.63.直接看面试官电脑上阅读全文

posted @ 2019-06-21 09:10 任重而道远的小蜗牛阅读(382) 评论(0) 推荐(0) 编辑

RDD的checkpoint机制和键值对RDD数据分区

摘要： checkpoint原理机制当RDD使用cache机制从内存中读取数据，如果数据没有读到，会使用checkpoint机制读取数据。此时如果没有checkpoint机制，那么就需要找到父RDD重新计算数据了，因此checkpoint是个很重要的的容错机制。checkpoint就是对于一个RDDcha 阅读全文

posted @ 2019-06-21 09:06 任重而道远的小蜗牛阅读(392) 评论(0) 推荐(0) 编辑

IT界的小十七

公告