会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
乌云散尽
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
10
下一页
2023年4月10日
chatpgt-flinkcdc从mysql到kafka再到mysql
摘要: flinkcdc mysql到kafka import org.apache.flink.api.common.serialization.SimpleStringSchema; import org.apache.flink.streaming.api.environment.StreamExec
阅读全文
posted @ 2023-04-10 20:10 堕落先锋
阅读(134)
评论(0)
推荐(0)
编辑
2023年3月20日
spark-excel使用hdfs文件上传
摘要: package com.byd.bigdata.spark.job.cyb; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.security.U
阅读全文
posted @ 2023-03-20 14:45 堕落先锋
阅读(77)
评论(0)
推荐(0)
编辑
2022年8月19日
HDFS API相关操作,大文件上传、合并、删除、修改、查看,复制、移动等相关操作
摘要: 文件合并,大文件IOUtils等的操作,本地文件系统的获取,文件合并上传,合并下载等操作 package com.byd.bigdata.spark.job; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.
阅读全文
posted @ 2022-08-19 14:15 堕落先锋
阅读(185)
评论(0)
推荐(0)
编辑
SPARK数据倾斜,随机数方式
摘要: 1、现象 spark数据倾斜,有两种表现: 大部分的task,都执行的特别特别快,刷刷刷,就执行完了(你要用client模式,standalone client,yarn client,本地机器主要一执行spark-submit脚本,就会开始打印log),task175 finished;剩下几个t
阅读全文
posted @ 2022-08-19 14:10 堕落先锋
阅读(462)
评论(0)
推荐(0)
编辑
2022年8月1日
Idea打包的多种方式研究
摘要: Idea打包方式 打一个empty只包含编译文件的包,artifact > 点击+ > jar > Empty > Output layout > 选择相关模块下的 complie output即可 打包一个Empty包含编译文件和依赖的包,artifact > 点击+ > jar > Empty
阅读全文
posted @ 2022-08-01 13:58 堕落先锋
阅读(775)
评论(0)
推荐(0)
编辑
2022年5月14日
Canal安装及配置kafka
摘要: Canal介绍原理 Canal是阿里巴巴开源的一款主要用于数据库同步业务的项目,基于数据库的日志解析,获取增量变更进行同步,衍生出了Canal增量订阅&消费的实时数据库同步。 基本原理: 1、canal模拟mysql slave的交互协议,伪装自己为mysql slave,向mysql master
阅读全文
posted @ 2022-05-14 17:25 堕落先锋
阅读(753)
评论(0)
推荐(0)
编辑
Kafka集群搭建windows环境下
摘要: 目标是搭建三节点kafka环境 依赖于上一章搭建的zk集群参考步骤 下载kafka软件 Kafka官网 解压kafka_2.13-2.8.1.tgz文件,重名名为kafka_2.13-2.8.1-0 配置config下的server.properties文件 #唯一标识 broker.id=0 #监
阅读全文
posted @ 2022-05-14 16:08 堕落先锋
阅读(106)
评论(0)
推荐(0)
编辑
Zookeeper集群搭建过程3个zk节点
摘要: 目标是搭建3节点zk集群 下载与搭建zookeeper软件 先zookeeper官网 下载软件 https://www.apache.org/dyn/closer.lua/zookeeper/zookeeper-3.8.0/apache-zookeeper-3.8.0-bin.tar.gz
阅读全文
posted @ 2022-05-14 15:50 堕落先锋
阅读(231)
评论(0)
推荐(0)
编辑
2022年4月28日
Hive中的一些时间函数,窗口函数简记
摘要: Hive日期时间函数 在impala上执行的几种结果,供参考 select to_date(concat(substr(from_unixtime(unix_timestamp(),'yyyy-MM-dd'),1,8),'01')) select current_timestamp() --2022
阅读全文
posted @ 2022-04-28 14:51 堕落先锋
阅读(195)
评论(0)
推荐(0)
编辑
2022年4月21日
Oracle ClassNotFoundException以及环境过程
摘要: 目的是实现oracle连接查询 引入maven相关依赖 编写spark相关代码 遇到的问题 引入相关依赖,完整的pom文件 点击cdp的配置 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/
阅读全文
posted @ 2022-04-21 20:09 堕落先锋
阅读(88)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
7
···
10
下一页
公告