2019 年 8月 13 日随笔档案 - KamShing

2019年8月13日

摘要：一、Spark的应用程序执行过程：在Spark中，每一个“作业”称为一个应用程序（Application），每一个Application都必须有一个SparkContext，相当于application的入口，或者理解为环境。当用户（Client）提交应用程序（Application）时，该app 阅读全文

posted @ 2019-08-13 13:39 KamShing 阅读(574) 评论(0) 推荐(0) 编辑

Spark消息通信原理（二）——Spark启动消息通信

摘要： Spark启动过程中，主要是进行Master和Worker之间的通信。首先，由Worker节点向Master发送注册信息，然后，Master处理完毕，返回注册成功或者失败消息，如果注册成功，Worker会定时发送心跳给Master。具体过程如下：当master节点启动后，随之启动各worker 阅读全文

posted @ 2019-08-13 13:21 KamShing 阅读(386) 评论(0) 推荐(0) 编辑

浅谈数据仓库的ETL

摘要：一、基本概念 ETL，它是Extract、Transform、Load三个单词的首写字母。ETL是建立数据仓库最重要的处理过程，也是工作量最大的环节，一般会占到整个数据仓库建立的一半工作量。建立一个数据仓库，就是要把来自多个异构的源系统的数据集成在一起，然后放置于一个集中的位置，用于数据分析。二阅读全文

posted @ 2019-08-13 12:19 KamShing 阅读(2079) 评论(0) 推荐(0) 编辑

Spark消息通信原理（一）——Spark消息通信架构

摘要：在Spark中定义了通信框架的接口，这些接口中调用了Netty的具体方法（在spark2.x前，使用的是Akka）。各接口和实现类的关系如下图所示。将终端（EndPoint）注册到Rpc环境中：在各个模块中，如DriverEndPoint、ClientEndPoint、Master、Worker 阅读全文

posted @ 2019-08-13 12:17 KamShing 阅读(675) 评论(0) 推荐(0) 编辑

Spark——传递函数与闭包

摘要：在Scala中，你可以在任何作用于内定义函数，在函数体内，可以访问相应作用域内的任何变量；还不止，你的函数还可以在变量不再处于作用于内的时候被调用，这就是闭包的最基本的理解。一、transform、action算子的函数参数在spark集群中，spark应用由负责运行用户编写的main函数，以及阅读全文

posted @ 2019-08-13 12:09 KamShing 阅读(1128) 评论(10) 推荐(1) 编辑

Syso(Alt+/)Cjs

公告