摘要:
1. ProcessFunction ProcessFunction是一个低级的流处理操作,可以访问所有(非循环)流应用程序的基本构建块: event(流元素) state(容错,一致性,只能在Keyed流中使用) timers(事件时间和处理时间,只能在keyed流中使用) ProcessFunc 阅读全文
摘要:
1. 案例 用户ID,活动ID,时间,事件类型,省份 u001,A1,2019-09-02 10:10:11,1,北京市 u001,A1,2019-09-02 14:10:11,1,北京市 u001,A1,2019-09-02 14:10:11,2,北京市 u002,A1,2019-09-02 14 阅读全文
摘要:
1 练习讲解(此处自己没跑通,以后debug) 题目见flink 实时项目 day02 kafka中的数据,见day02的文档 GeoUtils package cn._51doit.flink.day07; import ch.hsr.geohash.GeoHash; import com.ali 阅读全文
摘要:
1. 解析参数工具类(ParameterTool) 该类提供了从不同数据源读取和解析程序参数的简单实用方法,其解析args时,只能支持单只参数。 用来解析main方法传入参数的工具类 public class ParseArgsKit { public static void main(String 阅读全文
摘要:
1. openrestry的安装 OpenResty = Nginx + Lua,是⼀一个增强的Nginx,可以编写lua脚本实现⾮非常灵活的逻辑 (1)安装开发库依赖 yum install -y pcre-devel openssl-devel gcc curl (2)配置yum的依赖源 yum 阅读全文
摘要:
1. kafkaSource 见官方文档 2. kafkaSource的偏移量的存储位置 默认存在kafka的特殊topic中,但也可以设置参数让其不存在kafka的特殊topic中 3 将kafka中的数据写入redis中去 redisSink不支持exactly Once,只支持AtLeast 阅读全文
摘要:
1. Task的划分 在flink中,划分task的依据是发生shuffle(也叫redistrubute),或者是并行度发生变化 1. wordcount为例 package cn._51doit.flink.day03; import org.apache.flink.api.common.fu 阅读全文
摘要:
1.自定义sink 在flink中,sink负责最终数据的输出。使用DataStream实例中的addSink方法,传入自定义的sink类 定义一个printSink(),使得其打印显示的是真正的task号(默认的情况是task的id+1) MyPrintSink package cn._51doi 阅读全文
摘要:
1. flink简介 1.1 什么是flink Apache Flink是一个分布式大数据处理引擎,可以对有限数据流(如离线数据)和无限流数据及逆行有状态计算(不太懂)。可以部署在各种集群环境,对各种大小的数据规模进行快速计算。 1.2 flink的架构体系 具体见文档 2. flink的安装 修改 阅读全文
摘要:
自己在路径访问明细表开发时,写的sql如下 SELECT guid, sessionid, event['url'] as page, `timestamp` as ts, row_number() over(PARTITION BY guid,sessionid ORDER BY `timesta 阅读全文