明明就-

2021年9月14日

摘要：前言：已经安装了ZK、HADOOP、HBASE 一、下载tar包 http://phoenix.apache.org/download.html 二、安装 1.解压 tar -zxvf phoneix-4.14.0-hbase-1.13.1-bin-tar.gz -C /opt/module/ 2. 阅读全文

posted @ 2021-09-14 16:08 明明就- 阅读(479) 评论(0) 推荐(0)

2021年9月10日

Flink:分流写入Kafka

摘要：前言：接上一篇需求描述：数据类型分别是页面数据、曝光数据、启动数据，分成三个流写入Kafka // 5.使用侧输出流将启动、曝光、页面数据分流 OutputTag<String> startoutputTag = new OutputTag<String>("start"){ }; Output 阅读全文

posted @ 2021-09-10 17:38 明明就- 阅读(589) 评论(0) 推荐(0)

Flink:识别新老访客，Kafka消费数据到不同主题

摘要：前言：接上一篇 1.需求描述：识别新老用户本身客户端业务有新老用户的标识，但是不够准确，需要用实时计算再次确认（不涉及业务操作，只是单纯的做个状态确认） 2.利用侧输出流实现数据拆分根据日志数据内容，将日志数据分成3类，页面日志、启动日志和曝光日志。页面日志输出到主流，启动日志输出到启动侧输出流阅读全文

posted @ 2021-09-10 00:07 明明就- 阅读(805) 评论(0) 推荐(1)

2021年9月9日

FlinkCDC从Mysql数据写入Kafka

摘要：环境安装： 1.jdk 2.Zookeeper 3.Kafka 4.maven 5.开启Mysql的binlog 一、binlog监控Mysql的库二、编写FlinkCDC程序 1.添加pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xm 阅读全文

posted @ 2021-09-09 23:05 明明就- 阅读(3271) 评论(0) 推荐(0)

spring-boot-maven-plugin 构建找不到

摘要：分析去本地仓库，检查是否有该jar包${user.home}/.m2 去远程仓库查看，检查是否有该版本的jar包通过对比，发现远程仓库里有了最新版本的路径，但是里面确没有jar包。解决通过分析，可以总结如下：spring-boot-maven-plugin没有设置version，它会先去远程阅读全文

posted @ 2021-09-09 21:57 明明就- 阅读(1610) 评论(0) 推荐(0)

2021年8月27日

Python连接数据库

摘要： 1. import time import pymysql import pandas as pd from datetime import datetime,timedelta 2. cuor = pymysql.connect(host = "", user = "", password = " 阅读全文

posted @ 2021-08-27 15:44 明明就- 阅读(98) 评论(0) 推荐(0)

Python日期时间转化

摘要： import time from datetime import datetime,timedelta # 显示当前时间 t1 = datetime.now() print(t1) # 打印天数，主要用于做天维度的增加或减少计算 t2 = timedelta(days=1) print(t2) # 阅读全文

posted @ 2021-08-27 15:16 明明就- 阅读(526) 评论(0) 推荐(0)

2021年8月26日

Flink StreamExecutionEnvironment API

摘要： Flink流式处理API流程图 # 创建流式处理任务环境 StreamExecutionEnvironment env = StreamExceptionEnvironment.getExceptionEnvironment(); 创建一个执行环境,表示当前执行程序的上下文,类似于SparkCont 阅读全文

posted @ 2021-08-26 16:53 明明就- 阅读(1978) 评论(0) 推荐(0)

2021年8月25日

Hive优化

摘要： 1.慎用API 大数据场景下不害怕数据量大,害怕的是数据倾斜,怎么样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键.数据量较大的情况下,慎用count(distinct),count(distinct)容易产生数据倾斜哎. 2.自定义UDAD函数优化 sum,count,max,mix等UDAF函阅读全文

posted @ 2021-08-25 19:55 明明就- 阅读(69) 评论(0) 推荐(0)

Kafka Stream数据清洗ETL

摘要： Kafka Streams 1.Apache Kafka开源项目的一个组成部分,是一个功能强大,易于使用的库.用于在Kafka上构建高可分布,可拓展,高容错的应用程序. 2.Kafka Streams特点 1)功能强大:高扩展性,弹性,容错 2)轻量级:无需专门的集群,一个库,而不是框架. 3)完全阅读全文

posted @ 2021-08-25 11:44 明明就- 阅读(658) 评论(0) 推荐(2)

公告