一y样

2020年6月27日

flink-----实时项目---day05-------1. ProcessFunction 2. apply对窗口进行全量聚合 3使用aggregate方法实现增量聚合 4.使用ProcessFunction结合定时器实现排序

摘要： 1. ProcessFunction ProcessFunction是一个低级的流处理操作，可以访问所有(非循环)流应用程序的基本构建块: event(流元素) state(容错，一致性，只能在Keyed流中使用) timers(事件时间和处理时间，只能在keyed流中使用) ProcessFunc 阅读全文

posted @ 2020-06-27 12:33 一y样阅读(1268) 评论(0) 推荐(0) 编辑

2020年6月25日

flink-----实时项目---day04-------1. 案例:统计点击、参与某个活动的人数和次数 2. 活动指标多维度统计（自定义redisSink）

摘要： 1. 案例用户ID,活动ID,时间,事件类型,省份 u001,A1,2019-09-02 10:10:11,1,北京市 u001,A1,2019-09-02 14:10:11,1,北京市 u001,A1,2019-09-02 14:10:11,2,北京市 u002,A1,2019-09-02 14 阅读全文

posted @ 2020-06-25 23:44 一y样阅读(1241) 评论(1) 推荐(1) 编辑

2020年6月23日

flink---实时项目----day03---1.练习讲解（全局参数，数据以parquet格式写入hdfs中） 2 异步查询 3 BroadcastState

摘要： 1 练习讲解(此处自己没跑通，以后debug) 题目见flink 实时项目 day02 kafka中的数据，见day02的文档 GeoUtils package cn._51doit.flink.day07; import ch.hsr.geohash.GeoHash; import com.ali 阅读全文

posted @ 2020-06-23 23:26 一y样阅读(1038) 评论(0) 推荐(0) 编辑

2020年6月21日

flink---实时项目--day02-----1. 解析参数工具类 2. Flink工具类封装 3. 日志采集架构图 4. 测流输出 5. 将kafka中数据写入HDFS 6 KafkaProducer的使用 7 练习

摘要： 1. 解析参数工具类（ParameterTool）该类提供了从不同数据源读取和解析程序参数的简单实用方法，其解析args时，只能支持单只参数。用来解析main方法传入参数的工具类 public class ParseArgsKit { public static void main(String 阅读全文

posted @ 2020-06-21 11:45 一y样阅读(1113) 评论(0) 推荐(0) 编辑

2020年6月20日

flink---实时项目--day01--1. openrestry的安装 2. 使用nginx+lua将日志数据写入指定文件中 3. 使用flume将本地磁盘中的日志数据采集到的kafka中去

摘要： 1. openrestry的安装 OpenResty = Nginx + Lua，是⼀一个增强的Nginx，可以编写lua脚本实现⾮非常灵活的逻辑（1）安装开发库依赖 yum install -y pcre-devel openssl-devel gcc curl （2）配置yum的依赖源 yum 阅读全文

posted @ 2020-06-20 23:39 一y样阅读(783) 评论(0) 推荐(0) 编辑

2020年6月19日

flink04 -----1 kafkaSource 2. kafkaSource的偏移量的存储位置 3 将kafka中的数据写入redis中去 4 将kafka中的数据写入mysql中去

摘要： 1. kafkaSource 见官方文档 2. kafkaSource的偏移量的存储位置默认存在kafka的特殊topic中，但也可以设置参数让其不存在kafka的特殊topic中 3 将kafka中的数据写入redis中去 redisSink不支持exactly Once，只支持AtLeast 阅读全文

posted @ 2020-06-19 22:14 一y样阅读(592) 评论(0) 推荐(0) 编辑

2020年6月17日

flink03-----1.Task的划分 2.共享资源槽 3.flink的容错

摘要： 1. Task的划分在flink中，划分task的依据是发生shuffle（也叫redistrubute），或者是并行度发生变化 1. wordcount为例 package cn._51doit.flink.day03; import org.apache.flink.api.common.fu 阅读全文

posted @ 2020-06-17 22:33 一y样阅读(1953) 评论(0) 推荐(0) 编辑

2020年6月16日

flink02------1.自定义source 2. StreamingSink 3 Time 4窗口 5 watermark

摘要： 1.自定义sink 在flink中，sink负责最终数据的输出。使用DataStream实例中的addSink方法，传入自定义的sink类定义一个printSink()，使得其打印显示的是真正的task号（默认的情况是task的id+1） MyPrintSink package cn._51doi 阅读全文

posted @ 2020-06-16 22:45 一y样阅读(367) 评论(0) 推荐(0) 编辑

2020年6月15日

flink01--------1.flink简介 2.flink安装 3. flink提交任务的2种方式 4. 4flink的快速入门 5.source 6 常用算子（keyBy，max/min，maxBy/minBy，connect，union，split+select）

摘要： 1. flink简介 1.1 什么是flink Apache Flink是一个分布式大数据处理引擎，可以对有限数据流（如离线数据）和无限流数据及逆行有状态计算（不太懂）。可以部署在各种集群环境，对各种大小的数据规模进行快速计算。 1.2 flink的架构体系具体见文档 2. flink的安装修改阅读全文

posted @ 2020-06-15 23:26 一y样阅读(617) 评论(0) 推荐(2) 编辑

2020年5月18日

org.apache.hadoop.hive.ql.metadata.HiveException: Internal Error: cannot generate all output rows for a Partition解决

摘要：自己在路径访问明细表开发时，写的sql如下 SELECT guid, sessionid, event['url'] as page, `timestamp` as ts, row_number() over(PARTITION BY guid,sessionid ORDER BY `timesta 阅读全文

posted @ 2020-05-18 17:05 一y样阅读(1454) 评论(0) 推荐(0) 编辑

公告