随笔分类 -  大数据

摘要:一、场景 目前使用s3替代hdfs作为hive表数据存储,使用spark sql insert数据到hive表,发现一个简单的查询+插入任务,查询+insert的动作显示已经执行完,任务还在跑,直到跑了两个小时后才执行结束。 二、原因 s3对spark默认的commit操作兼容性不强,spark有两 阅读全文
posted @ 2022-10-13 17:37 wss96 阅读(273) 评论(0) 推荐(0) 编辑
摘要:1. Debezium简介 Debezium 是一个分布式平台,它将现有的数据库转换为事件流,应用程序消费事件流,就可以知道数据库中的每一个行级更改,并立即做出响应。Debezium 构建在 Apache Kafka 之上,并提供 Kafka 连接器来监视特定的数据库。在介绍 Debezium 之前 阅读全文
posted @ 2021-07-09 17:35 wss96 阅读(4330) 评论(1) 推荐(4) 编辑
摘要:设计一张日期维度表 表名称:DIM_PUB_DATE 具体属性值: 字段名称 字段类型 字段描述 示例 ds string Id(主键) 20210624 d_date string 日期 2021-06-24 d_datetime string 日期(包含时分秒) 2021-06-24 00:00 阅读全文
posted @ 2021-07-09 17:14 wss96 阅读(1504) 评论(0) 推荐(2) 编辑
摘要:由于公司业务需要,需要实时同步pgsql数据,我们选择使用flink-cdc方式进行 架构图: 前提步骤: 1,更改配置文件postgresql.conf # 更改wal日志方式为logicalwal_level = logical # minimal, replica, or logical # 阅读全文
posted @ 2021-05-27 14:06 wss96 阅读(14165) 评论(1) 推荐(2) 编辑
摘要:异常信息 must be superuser to create FOR ALL TABLES publication 必须是超级用户才能为所有发布表创建 网上搜索了一天,都毫无头绪,后面搜索到了一个 https://blog.csdn.net/Zznxz0601/article/details/1 阅读全文
posted @ 2021-04-29 15:59 wss96 阅读(1881) 评论(0) 推荐(0) 编辑
摘要:累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。 Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例,在这个例子中 阅读全文
posted @ 2019-04-22 21:12 wss96 阅读(1614) 评论(0) 推荐(2) 编辑
摘要:ROW_NUMBER,RANK(),DENSE_RANK() 先了解这三个之间的区别: Rank():1,2,2,4,5(一般用这个较多,不会影响总排名) Dense_rank():1,2,2,3,4,5(会影响最终排名) Row_number():1,2,3,4,5,6(按照行数显示) 语法格式: 阅读全文
posted @ 2019-04-15 21:03 wss96 阅读(2662) 评论(0) 推荐(0) 编辑
摘要:Spark内部执行机制 1.1 内部执行流程 如下图1为分布式集群上spark应用程序的一般执行框架。主要由sparkcontext(spark上下文)、cluster manager(资源管理器)和▪executor(单个节点的执行进程)。其中cluster manager负责整个集群的统一资源管 阅读全文
posted @ 2019-04-13 08:59 wss96 阅读(691) 评论(0) 推荐(0) 编辑

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示