摘要:
问题导读:spark缓存是如何实现的?BlockManager与BlockManagerMaster的关系是什么? 这个persist方法是在RDD里面的,所以我们直接打开RDD这个类。 def persist(newLevel: StorageLevel): this.type = { // St 阅读全文
摘要:
问题导读:1.描述作业生命周期?2.资源是如何调度的? 这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,let you know! 我们先回顾一下这个图,Driver Program是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角 阅读全文
摘要:
问题导读:1.如何进行作业划分?2.TaskScheduler如何提交Task? 1、作业执行 上一章讲了RDD的转换,但是没讲作业的运行,它和Driver Program的关系是啥,和RDD的关系是啥? 官方给的例子里面,一执行collect方法就能出结果,那我们就从collect开始看吧,进入R 阅读全文
摘要:
问题导读:1.什么是RDD?2.如何实现RDD转换? 1、什么是RDD? 上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。 RDD的全名是Resilient Distributed Dataset,意思是容错 阅读全文
摘要:
问题导读:1.spark是如何提交作业的?2.Akka框架是如何实现的?3.如何实现调度的?前言 折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。 这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这 阅读全文
摘要:
问题导读 1. Centos7如何安装配置? 2. linux网络配置如何进行? 3. linux环境下java 如何安装? 4. linux环境下SSH免密码登录如何配置? 5. linux环境下Hadoop2.7 如何安装? 6. linux环境下Mysql 如何安装? 7. linux环境下H 阅读全文
摘要:
问题导读:1、数据库、数据仓库如何理解?2、数据湖有什么用途?解决什么问题?3、数据仓库的加载链路如何实现?4、Hudi新一代数据湖项目有什么优势?在近期的 Apache Kylin × Apache Hudi Meetup 直播上,Apache Kylin PMC Chair 史少锋和 Kylig 阅读全文