摘要: 一、SparkStreaming的核心原理 将连续的流数据通过时间间隔的形式划分为离散的流数据,即为某段时间的数据。 二、SparkStreaming框架的核心思想 1、流的输入:InputStreams --> 源数据 2、流的输出:outputDStreams --> 要计算的结果数据 三、整体 阅读全文
posted @ 2017-06-23 14:00 I'm_kylin 阅读(1028) 评论(0) 推荐(0) 编辑
摘要: 一、stage 的处理过程 1、从下图可以看出stage是通过递归的形式,从开始依次提交每个stage,直到ResultStage。 2、生成task的主要代码 3、提交到taskScheduler 4、 二、每个stage生成的task的个数 从以上的几幅图不难发现task的数量其实只与rdd的p 阅读全文
posted @ 2017-05-10 13:26 I'm_kylin 阅读(556) 评论(0) 推荐(0) 编辑
摘要: 1、partitions 2、compute 3、dependencies 二、RDD的执行Job的流程 RDD: 这些方法是判断这个Job结束的标志,然后开始执行Job。 SparkContext: DAGScheduler: 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、1 阅读全文
posted @ 2017-05-09 14:42 I'm_kylin 阅读(547) 评论(0) 推荐(0) 编辑
摘要: 可能大部分人只知道访问权限修饰符的访问范围,却不太清楚具体的使用情况,今天我来为大家梳理一下。 Java 的访问权限修饰符有:public,private,protected,默认不写,这四种。主要说以下两个方面: 一、可访问的范围 1. public 表明该数据成员、成员函数是对所有用户开放的,所 阅读全文
posted @ 2017-05-06 11:29 I'm_kylin 阅读(2282) 评论(0) 推荐(2) 编辑