摘要:
问题导读: 1.什么是数据仓库? 2.数据仓库的架构是怎样的? 3.怎样设计数据仓库的模型? 1、什么是数据仓库 1.1 数据仓库的概念 官方定义 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。 这个定义的确官方,但是却指出了数据仓库的四个特 阅读全文
摘要:
问题导读:1、用户画像的核心工作是什么?2、开发用户画像流程有哪些?3、标签类别和标签内容有哪些?4、如何构建用户画像系统?用户画像将产品设计的焦点放在目标用户的动机和行为上,从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表,根据自己的需求设计产品,导致无法抓住实际用户 阅读全文
摘要:
问题导读 1、如何理解SQL Core? 2、RDD支持的第三方格式有哪些? 3、SQLContext如何对sql执行解析? 摘要 本文作者整理了对Spark SQL各个模块的实现情况、代码结构、执行流程情况以及分享了对Spark SQL的理解,无论是从源码实现,还是从Spark SQL实际使用角度 阅读全文
摘要:
问题导读1、什么是Catalyst?2、对Hive的兼容支持将转移到什么上?3、TreeNode具备哪些对节点的操作方法?摘要:本文作者整理了对Spark SQL各个模块的实现情况、代码结构、执行流程情况以及分享了对Spark SQL的理解,无论是从源码实现,还是从Spark SQL实际使用角度,这 阅读全文
摘要:
问题导读:1、如何理解列裁剪和分区裁剪?2、sort by代替order by优势在哪里?3、如何调整group by配置?4、如何优化SQL处理join数据倾斜?Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗 阅读全文
摘要:
第一章、spark源码分析之RDD四种依赖关系 一、RDD四种依赖关系 RDD四种依赖关系,分别是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四种依赖关系。如下图所示:org.apache.spark.Dep 阅读全文
摘要:
问题导读1,如何保存接收到的数据?2,如何处理接收到的数据?3,调用get或Compute方法获得RDD的流程有什么?这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照《Spark Streaming编程讲解》。 1、示例代码分析 val ssc = new Stre 阅读全文
摘要:
问题导读1、yarn提交作业的流程是怎样的?2、run方法在ApplicationMaster里面主要干了什么工作?3、把作业发布到yarn上面去执行,涉及到哪些类?本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现,1.0.0里面已经是一个 阅读全文
摘要:
问题导读: 1、shuffle过程的划分? 2、shuffle的中间结果如何存储? 3、shuffle的数据如何拉取过来? Shuffle过程的划分 Spark的操作模型是基于RDD的,当调用RDD的reduceByKey、groupByKey等类似的操作的时候,就需要有shuffle了。再拿出re 阅读全文
摘要:
问题导读:spark缓存是如何实现的?BlockManager与BlockManagerMaster的关系是什么? 这个persist方法是在RDD里面的,所以我们直接打开RDD这个类。 def persist(newLevel: StorageLevel): this.type = { // St 阅读全文
摘要:
问题导读:1.描述作业生命周期?2.资源是如何调度的? 这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,let you know! 我们先回顾一下这个图,Driver Program是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角 阅读全文
摘要:
问题导读:1.如何进行作业划分?2.TaskScheduler如何提交Task? 1、作业执行 上一章讲了RDD的转换,但是没讲作业的运行,它和Driver Program的关系是啥,和RDD的关系是啥? 官方给的例子里面,一执行collect方法就能出结果,那我们就从collect开始看吧,进入R 阅读全文
摘要:
问题导读:1.什么是RDD?2.如何实现RDD转换? 1、什么是RDD? 上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。 RDD的全名是Resilient Distributed Dataset,意思是容错 阅读全文
摘要:
问题导读:1.spark是如何提交作业的?2.Akka框架是如何实现的?3.如何实现调度的?前言 折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。 这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这 阅读全文
摘要:
问题导读 1. Centos7如何安装配置? 2. linux网络配置如何进行? 3. linux环境下java 如何安装? 4. linux环境下SSH免密码登录如何配置? 5. linux环境下Hadoop2.7 如何安装? 6. linux环境下Mysql 如何安装? 7. linux环境下H 阅读全文
摘要:
问题导读:1、数据库、数据仓库如何理解?2、数据湖有什么用途?解决什么问题?3、数据仓库的加载链路如何实现?4、Hudi新一代数据湖项目有什么优势?在近期的 Apache Kylin × Apache Hudi Meetup 直播上,Apache Kylin PMC Chair 史少锋和 Kylig 阅读全文