会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
明明就-
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
下一页
2021年9月14日
Phoenix安装
摘要: 前言:已经安装了ZK、HADOOP、HBASE 一、下载tar包 http://phoenix.apache.org/download.html 二、安装 1.解压 tar -zxvf phoneix-4.14.0-hbase-1.13.1-bin-tar.gz -C /opt/module/ 2.
阅读全文
posted @ 2021-09-14 16:08 明明就-
阅读(478)
评论(0)
推荐(0)
2021年9月10日
Flink:分流写入Kafka
摘要: 前言:接上一篇 需求描述:数据类型分别是页面数据、曝光数据、启动数据,分成三个流写入Kafka // 5.使用侧输出流将 启动、曝光、页面数据分流 OutputTag<String> startoutputTag = new OutputTag<String>("start"){ }; Output
阅读全文
posted @ 2021-09-10 17:38 明明就-
阅读(587)
评论(0)
推荐(0)
Flink:识别新老访客,Kafka消费数据到不同主题
摘要: 前言:接上一篇 1.需求描述:识别新老用户 本身客户端业务有新老用户的标识,但是不够准确,需要用实时计算再次确认(不涉及业务操作,只是单纯的做个状态确认) 2.利用侧输出流实现数据拆分 根据日志数据内容,将日志数据分成3类,页面日志、启动日志和曝光日志。页面日志输出到主流,启动日志输出到启动侧输出流
阅读全文
posted @ 2021-09-10 00:07 明明就-
阅读(805)
评论(0)
推荐(1)
2021年9月9日
FlinkCDC从Mysql数据写入Kafka
摘要: 环境安装: 1.jdk 2.Zookeeper 3.Kafka 4.maven 5.开启Mysql的binlog 一、binlog监控Mysql的库 二、编写FlinkCDC程序 1.添加pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xm
阅读全文
posted @ 2021-09-09 23:05 明明就-
阅读(3270)
评论(0)
推荐(0)
spring-boot-maven-plugin 构建找不到
摘要: 分析 去本地仓库,检查是否有该jar包${user.home}/.m2 去远程仓库查看,检查是否有该版本的jar包 通过对比,发现远程仓库里有了最新版本的路径,但是里面确没有jar包。 解决 通过分析,可以总结如下:spring-boot-maven-plugin没有设置version,它会先去远程
阅读全文
posted @ 2021-09-09 21:57 明明就-
阅读(1607)
评论(0)
推荐(0)
2021年8月27日
Python连接数据库
摘要: 1. import time import pymysql import pandas as pd from datetime import datetime,timedelta 2. cuor = pymysql.connect(host = "", user = "", password = "
阅读全文
posted @ 2021-08-27 15:44 明明就-
阅读(98)
评论(0)
推荐(0)
Python日期时间转化
摘要: import time from datetime import datetime,timedelta # 显示当前时间 t1 = datetime.now() print(t1) # 打印天数,主要用于做天维度的增加或减少计算 t2 = timedelta(days=1) print(t2) #
阅读全文
posted @ 2021-08-27 15:16 明明就-
阅读(526)
评论(0)
推荐(0)
2021年8月26日
Flink StreamExecutionEnvironment API
摘要: Flink流式处理API流程图 # 创建流式处理任务环境 StreamExecutionEnvironment env = StreamExceptionEnvironment.getExceptionEnvironment(); 创建一个执行环境,表示当前执行程序的上下文,类似于SparkCont
阅读全文
posted @ 2021-08-26 16:53 明明就-
阅读(1975)
评论(0)
推荐(0)
2021年8月25日
Hive优化
摘要: 1.慎用API 大数据场景下不害怕数据量大,害怕的是数据倾斜,怎么样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键.数据量较大的情况下,慎用count(distinct),count(distinct)容易产生数据倾斜哎. 2.自定义UDAD函数优化 sum,count,max,mix等UDAF函
阅读全文
posted @ 2021-08-25 19:55 明明就-
阅读(68)
评论(0)
推荐(0)
Kafka Stream数据清洗ETL
摘要: Kafka Streams 1.Apache Kafka开源项目的一个组成部分,是一个功能强大,易于使用的库.用于在Kafka上构建高可分布,可拓展,高容错的应用程序. 2.Kafka Streams特点 1)功能强大:高扩展性,弹性,容错 2)轻量级:无需专门的集群,一个库,而不是框架. 3)完全
阅读全文
posted @ 2021-08-25 11:44 明明就-
阅读(658)
评论(0)
推荐(2)
上一页
1
2
3
4
5
6
7
8
9
下一页
公告