摘要: map 结果: 67891012345 (6,1)(7,1)(8,1)(9,1)(10,1)(1,1)(2,1)(3,1)(4,1)(5,1) filter 通过自定义函数对元素进行过滤 结果: 67891012345 78910 filtMap 通过自定义函数把RDD中的每一个元素映射成多个元素, 阅读全文
posted @ 2017-09-06 09:31 是奉壹呀 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 一初始化 在SparkContext初始化的时候,同时初始化三个对象。DAGScheduler,TaskScheduler,SchedulerBackend。DAGScheduler,前面已经讲到,做stage的划分及每个stage对应的task划分及任务提交,SchedulerBackend用于资 阅读全文
posted @ 2017-09-06 09:31 是奉壹呀 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 由一个action动作触发sparkcontext的runjob,再由此触发dagScheduler.runJob,然后触发submitJob,封装一个JobSubmitted放入一个队列。然后再通过doOnReceive里面的dagScheduler.handleJobSubmitted提交。 1 阅读全文
posted @ 2017-09-06 09:30 是奉壹呀 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 前面一篇讲到了,DAG静态模板的生成。那么spark streaming会在每一个batch时间一到,就会根据DAG所形成的逻辑以及物理依赖链(dependencies)动态生成RDD以及由这些RDD组成的job,并形成一个job集合提交到集群当中执行。那么下面我们具体分析这三个步骤。 首先从Job 阅读全文
posted @ 2017-09-06 09:30 是奉壹呀 阅读(559) 评论(0) 推荐(0) 编辑