大数据 - 随笔分类 - wss96

Spark任务写数据到s3，默认单线程移动数据，执行时间很长

摘要：一、场景目前使用s3替代hdfs作为hive表数据存储，使用spark sql insert数据到hive表，发现一个简单的查询+插入任务，查询+insert的动作显示已经执行完，任务还在跑，直到跑了两个小时后才执行结束。二、原因 s3对spark默认的commit操作兼容性不强，spark有两阅读全文

posted @ 2022-10-13 17:37 wss96 阅读(277) 评论(0) 推荐(0) 编辑

Debezium监控MySQL，PGsql，SQLServer

摘要：1. Debezium简介 Debezium 是一个分布式平台，它将现有的数据库转换为事件流，应用程序消费事件流，就可以知道数据库中的每一个行级更改，并立即做出响应。Debezium 构建在 Apache Kafka 之上，并提供 Kafka 连接器来监视特定的数据库。在介绍 Debezium 之前阅读全文

posted @ 2021-07-09 17:35 wss96 阅读(4344) 评论(1) 推荐(4) 编辑

python生成数据仓库日期维度表

摘要：设计一张日期维度表表名称：DIM_PUB_DATE 具体属性值：字段名称字段类型字段描述示例 ds string Id（主键） 20210624 d_date string 日期 2021-06-24 d_datetime string 日期（包含时分秒） 2021-06-24 00:00 阅读全文

posted @ 2021-07-09 17:14 wss96 阅读(1512) 评论(0) 推荐(2) 编辑

Flink-cdc实时读postgresql

摘要：由于公司业务需要，需要实时同步pgsql数据，我们选择使用flink-cdc方式进行架构图：前提步骤: 1，更改配置文件postgresql.conf # 更改wal日志方式为logicalwal_level = logical # minimal, replica, or logical # 阅读全文

posted @ 2021-05-27 14:06 wss96 阅读(14269) 评论(1) 推荐(2) 编辑

flink-cdc读取postgres报异常，没有发布表

摘要：异常信息 must be superuser to create FOR ALL TABLES publication 必须是超级用户才能为所有发布表创建网上搜索了一天，都毫无头绪，后面搜索到了一个 https://blog.csdn.net/Zznxz0601/article/details/1 阅读全文

posted @ 2021-04-29 15:59 wss96 阅读(1902) 评论(0) 推荐(0) 编辑

Spark累加器(Accumulator)陷阱及解决办法

摘要：累加器（accumulator）是Spark中提供的一种分布式的变量机制，其原理类似于mapreduce，即分布式的改变，然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。 Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例，在这个例子中阅读全文

posted @ 2019-04-22 21:12 wss96 阅读(1620) 评论(0) 推荐(2) 编辑

hive求TopN语句

摘要：ROW_NUMBER，RANK()，DENSE_RANK() 先了解这三个之间的区别： Rank()：1,2,2,4,5（一般用这个较多，不会影响总排名） Dense_rank()：1,2,2,3,4,5（会影响最终排名） Row_number()：1,2,3,4,5,6（按照行数显示）语法格式：阅读全文

posted @ 2019-04-15 21:03 wss96 阅读(2664) 评论(0) 推荐(0) 编辑

Spark内部执行机制

摘要：Spark内部执行机制 1.1 内部执行流程如下图1为分布式集群上spark应用程序的一般执行框架。主要由sparkcontext（spark上下文）、cluster manager(资源管理器)和▪executor（单个节点的执行进程）。其中cluster manager负责整个集群的统一资源管阅读全文

posted @ 2019-04-13 08:59 wss96 阅读(693) 评论(0) 推荐(0) 编辑

随笔分类 - 大数据

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏