摘要: 前言:已经安装了ZK、HADOOP、HBASE 一、下载tar包 http://phoenix.apache.org/download.html 二、安装 1.解压 tar -zxvf phoneix-4.14.0-hbase-1.13.1-bin-tar.gz -C /opt/module/ 2. 阅读全文
posted @ 2021-09-14 16:08 明明就- 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 前言:接上一篇 需求描述:数据类型分别是页面数据、曝光数据、启动数据,分成三个流写入Kafka // 5.使用侧输出流将 启动、曝光、页面数据分流 OutputTag<String> startoutputTag = new OutputTag<String>("start"){ }; Output 阅读全文
posted @ 2021-09-10 17:38 明明就- 阅读(504) 评论(0) 推荐(0) 编辑
摘要: 前言:接上一篇 1.需求描述:识别新老用户 本身客户端业务有新老用户的标识,但是不够准确,需要用实时计算再次确认(不涉及业务操作,只是单纯的做个状态确认) 2.利用侧输出流实现数据拆分 根据日志数据内容,将日志数据分成3类,页面日志、启动日志和曝光日志。页面日志输出到主流,启动日志输出到启动侧输出流 阅读全文
posted @ 2021-09-10 00:07 明明就- 阅读(703) 评论(0) 推荐(1) 编辑
摘要: 环境安装: 1.jdk 2.Zookeeper 3.Kafka 4.maven 5.开启Mysql的binlog 一、binlog监控Mysql的库 二、编写FlinkCDC程序 1.添加pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xm 阅读全文
posted @ 2021-09-09 23:05 明明就- 阅读(3029) 评论(0) 推荐(0) 编辑
摘要: 分析 去本地仓库,检查是否有该jar包${user.home}/.m2 去远程仓库查看,检查是否有该版本的jar包 通过对比,发现远程仓库里有了最新版本的路径,但是里面确没有jar包。 解决 通过分析,可以总结如下:spring-boot-maven-plugin没有设置version,它会先去远程 阅读全文
posted @ 2021-09-09 21:57 明明就- 阅读(1418) 评论(0) 推荐(0) 编辑
摘要: 1. import time import pymysql import pandas as pd from datetime import datetime,timedelta 2. cuor = pymysql.connect(host = "", user = "", password = " 阅读全文
posted @ 2021-08-27 15:44 明明就- 阅读(72) 评论(0) 推荐(0) 编辑
摘要: import time from datetime import datetime,timedelta # 显示当前时间 t1 = datetime.now() print(t1) # 打印天数,主要用于做天维度的增加或减少计算 t2 = timedelta(days=1) print(t2) # 阅读全文
posted @ 2021-08-27 15:16 明明就- 阅读(462) 评论(0) 推荐(0) 编辑
摘要: Flink流式处理API流程图 # 创建流式处理任务环境 StreamExecutionEnvironment env = StreamExceptionEnvironment.getExceptionEnvironment(); 创建一个执行环境,表示当前执行程序的上下文,类似于SparkCont 阅读全文
posted @ 2021-08-26 16:53 明明就- 阅读(1831) 评论(0) 推荐(0) 编辑
摘要: 1.慎用API 大数据场景下不害怕数据量大,害怕的是数据倾斜,怎么样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键.数据量较大的情况下,慎用count(distinct),count(distinct)容易产生数据倾斜哎. 2.自定义UDAD函数优化 sum,count,max,mix等UDAF函 阅读全文
posted @ 2021-08-25 19:55 明明就- 阅读(41) 评论(0) 推荐(0) 编辑
摘要: Kafka Streams 1.Apache Kafka开源项目的一个组成部分,是一个功能强大,易于使用的库.用于在Kafka上构建高可分布,可拓展,高容错的应用程序. 2.Kafka Streams特点 1)功能强大:高扩展性,弹性,容错 2)轻量级:无需专门的集群,一个库,而不是框架. 3)完全 阅读全文
posted @ 2021-08-25 11:44 明明就- 阅读(587) 评论(0) 推荐(2) 编辑