摘要: [TOC] 1.wordcount 利用socket作为数据源,对输入的每行数据进行单词计数。计算频率为process time的每10秒一次,结果输出到terminal。 数据格式 2.双流警报EventTime 时间特征为event time,每1s更新一次watermark,watermark 阅读全文
posted @ 2018-12-22 22:25 justcodeit 阅读(855) 评论(0) 推荐(0) 编辑
摘要: Implementing Stateful Functions source function的stateful看官网,要加lock Declaring Keyed State at the RuntimeContext state可通过 rich functions 、Listcheckpoint 阅读全文
posted @ 2018-12-22 22:21 justcodeit 阅读(1371) 评论(0) 推荐(0) 编辑
摘要: [TOC] 本文API基于1.4以上 Configuring Time Characteristics 非key Stream的window operator并行度为1 Process Time 所有operator会按照系统时间来判断是否触发计算。如果作业是在9:15am开始的,且设置了1h的间隔 阅读全文
posted @ 2018-12-22 22:08 justcodeit 阅读(711) 评论(0) 推荐(0) 编辑
摘要: [TOC] 本文API基于Flink 1.4 注意,map、flatMap算子需要TypeInformation的隐式转换,即implicit val typeInfo = TypeInformation.of(classOf[map后的类型])。但更好的办法是 或 静态数据 从map到apply都 阅读全文
posted @ 2018-12-22 22:05 justcodeit 阅读(990) 评论(0) 推荐(0) 编辑
摘要: [TOC] Spark SQL/DF的执行过程 将上层的SQL语句映射为底层的RDD模型。 写代码(DF/Dataset/SQL)并提交 Parser解析后得到unresolved logical plan(代码合法但未判断data是否存在、数据类型) Analyzer分析对比Catalog(里面绑 阅读全文
posted @ 2018-12-22 21:59 justcodeit 阅读(3317) 评论(0) 推荐(0) 编辑
摘要: [TOC] 下面调优主要基于2.0以后。 代码优化 1.语言选择 如果是ETL并进行单节点机器学习,SparkR或Python。优点:语言相对简单;缺点:使用语言自身的数据结构时,效率低,因为这些数据需要转换。 如果用到自定义transformations或自定义类,Scala或Java。优点:性能 阅读全文
posted @ 2018-12-22 21:55 justcodeit 阅读(2457) 评论(0) 推荐(0) 编辑