摘要:
Flink(三) Flink 编程模型之创建和加载数据集 所有的 Flink 程序都是由三部分组成的: Source 、Transformation 和 Sink。 Source 负责读取数据源, Transformation 利用各种算子进行处理加工, Sink 负责输出。 DataStream 阅读全文
摘要:
Flink(三) Flink 编程模型之设定Flink执行环境 批处理作业和流式处理作业使用的是不同的Execution Environment,可以使用三种方式获取Execution Environment 流式处理作业的执行环境 //第一种:创建一个流处理的执行环境,如果在本地启动则创建本地执行 阅读全文
摘要:
Flink (三) Flink 编程模型 流式处理WordCount: public class StreamWordCount { public static void main(String[] args) throws Exception { //创建一个流处理的执行环境 StreamExec 阅读全文
摘要:
Flink (一)基本架构 1、什么是Flink?Flink有什么优势? Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架 Flink的优势: 同时支持高吞吐、低延迟、高性能 支持事件事件概念 目前大多数框架窗口计算采用的都是系统时间(Process 阅读全文
摘要:
Spark 源码解读(一)SparkContext的初始化之终章 1 、启动测量系统MetricsSystem MetricsSystem 使用codahale提供的第三方测量库Metrics。MetricsSystem 中有三个概念: Instance:指定了谁在使用测量系统 Source:指定了 阅读全文
摘要:
Spark 源码解读(一)SparkContext的初始化之TaskScheduler的启动 TaskScheduler创建完成之后,需要调用start()方法才可以生效,SparkContext的代码如下: _taskScheduler.start() TaskScheduler在启动的时候,实际 阅读全文
摘要:
https://blog.csdn.net/zhufengyan521521/article/details/80810105 阅读全文
摘要:
Spark 源码解读(五)SparkContext的初始化之创建和启动DAGScheduler DAGScheduler主要用于在任务正式提交给TaskSchedulerImpl提交之前做一些准备工作,包括:创建job,将DAG中的RDD划分到不同的Stage,提交Stage等等。SparkCont 阅读全文
摘要:
使用aggregate 函数报错: //以ItemId作为key .keyBy(new KeySelector<UserBehavior, Long>() { public Long getKey(UserBehavior userBehavior) throws Exception { retur 阅读全文
摘要:
Spark 源码解读(四)SparkContext的初始化之创建任务调度器TaskScheduler TaskScheduler负责任务任务的提交,并请求集群管理器对任务的调度。创建TaskScheduler的代码如下: val (sched, ts) = SparkContext.createTa 阅读全文