上一页 1 2 3 4 5 6 ··· 13 下一页
摘要: 1. ProcessFunction ProcessFunction是一个低级的流处理操作,可以访问所有(非循环)流应用程序的基本构建块: event(流元素) state(容错,一致性,只能在Keyed流中使用) timers(事件时间和处理时间,只能在keyed流中使用) ProcessFunc 阅读全文
posted @ 2020-06-27 12:33 一y样 阅读(1268) 评论(0) 推荐(0) 编辑
摘要: 1. 案例 用户ID,活动ID,时间,事件类型,省份 u001,A1,2019-09-02 10:10:11,1,北京市 u001,A1,2019-09-02 14:10:11,1,北京市 u001,A1,2019-09-02 14:10:11,2,北京市 u002,A1,2019-09-02 14 阅读全文
posted @ 2020-06-25 23:44 一y样 阅读(1241) 评论(1) 推荐(1) 编辑
摘要: 1 练习讲解(此处自己没跑通,以后debug) 题目见flink 实时项目 day02 kafka中的数据,见day02的文档 GeoUtils package cn._51doit.flink.day07; import ch.hsr.geohash.GeoHash; import com.ali 阅读全文
posted @ 2020-06-23 23:26 一y样 阅读(1038) 评论(0) 推荐(0) 编辑
摘要: 1. 解析参数工具类(ParameterTool) 该类提供了从不同数据源读取和解析程序参数的简单实用方法,其解析args时,只能支持单只参数。 用来解析main方法传入参数的工具类 public class ParseArgsKit { public static void main(String 阅读全文
posted @ 2020-06-21 11:45 一y样 阅读(1113) 评论(0) 推荐(0) 编辑
摘要: 1. openrestry的安装 OpenResty = Nginx + Lua,是⼀一个增强的Nginx,可以编写lua脚本实现⾮非常灵活的逻辑 (1)安装开发库依赖 yum install -y pcre-devel openssl-devel gcc curl (2)配置yum的依赖源 yum 阅读全文
posted @ 2020-06-20 23:39 一y样 阅读(783) 评论(0) 推荐(0) 编辑
摘要: 1. kafkaSource 见官方文档 2. kafkaSource的偏移量的存储位置 默认存在kafka的特殊topic中,但也可以设置参数让其不存在kafka的特殊topic中 3 将kafka中的数据写入redis中去 redisSink不支持exactly Once,只支持AtLeast 阅读全文
posted @ 2020-06-19 22:14 一y样 阅读(592) 评论(0) 推荐(0) 编辑
摘要: 1. Task的划分 在flink中,划分task的依据是发生shuffle(也叫redistrubute),或者是并行度发生变化 1. wordcount为例 package cn._51doit.flink.day03; import org.apache.flink.api.common.fu 阅读全文
posted @ 2020-06-17 22:33 一y样 阅读(1953) 评论(0) 推荐(0) 编辑
摘要: 1.自定义sink 在flink中,sink负责最终数据的输出。使用DataStream实例中的addSink方法,传入自定义的sink类 定义一个printSink(),使得其打印显示的是真正的task号(默认的情况是task的id+1) MyPrintSink package cn._51doi 阅读全文
posted @ 2020-06-16 22:45 一y样 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 1. flink简介 1.1 什么是flink Apache Flink是一个分布式大数据处理引擎,可以对有限数据流(如离线数据)和无限流数据及逆行有状态计算(不太懂)。可以部署在各种集群环境,对各种大小的数据规模进行快速计算。 1.2 flink的架构体系 具体见文档 2. flink的安装 修改 阅读全文
posted @ 2020-06-15 23:26 一y样 阅读(617) 评论(0) 推荐(2) 编辑
摘要: 自己在路径访问明细表开发时,写的sql如下 SELECT guid, sessionid, event['url'] as page, `timestamp` as ts, row_number() over(PARTITION BY guid,sessionid ORDER BY `timesta 阅读全文
posted @ 2020-05-18 17:05 一y样 阅读(1454) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 13 下一页