摘要: 前言 接之前的spark踩坑记录,回想起当时折磨很久的一个问题,结果导致开发中花了很长时间才完全解决。主要原因为spark 和 java 的字符串截取函数不一致导致的。 主要技术框架背景介绍 spark : 2.4.3scala : 2.11.12 背景 实际工作中会处理很多文本数据流,例如文章信息 阅读全文
posted @ 2023-07-11 17:40 Eric-Ln 阅读(179) 评论(0) 推荐(0) 编辑
摘要: hive 的谓词下推和optimize优化功能的讨论 sql 核心的大概结构为 with user_table as ( select user_id from user ) select t1.user_id from ( select t1.user_id, .... from ( select 阅读全文
posted @ 2023-07-11 11:53 Eric-Ln 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 前言 目前公司的批开发框架基于spark, 流式处理基于structure streaming和spark sql。 目前整体开发流程与大部分流式开发平台想法一致,将数据的ETL操作分割成独立功能的operator,其中采坑的部分与SqlOperator有关。 顾名思义,此operator的作用是将 阅读全文
posted @ 2020-08-13 23:47 Eric-Ln 阅读(2430) 评论(0) 推荐(0) 编辑
摘要: 前文 今天偶然刷新技术公众号的时候,看到一篇这样文章,是基于Flink有关于Mysql Binlog数据采集的方案,看了一下实践方法和具体操作有一些考虑情况不足的情况,缺少一些处理实际情况的操作。笔者之前有些过一些类似的采集工具实践的文章,但是并没有在整体上做出一个系统性的总结,所以我在想,是不是可 阅读全文
posted @ 2020-05-13 19:56 Eric-Ln 阅读(2260) 评论(0) 推荐(0) 编辑
摘要: 记录日常工作中实际场景中,对hive分区表的一次启发与实践。 核心操作技巧 hive 指定分区locaiton,进行不同存储位置或协议的数据读取。 业务背景 在业务发展过程中,发现ucloud在某些峰值场景下会出现严重的数据问题,为了服务稳定性与存储可靠性,需要做整体服务云迁移的需求。 整体迁移技术 阅读全文
posted @ 2020-04-21 18:15 Eric-Ln 阅读(981) 评论(0) 推荐(0) 编辑
摘要: 前言 本文主要参考淘宝极限存储方案,并结合其他参考文章,总结实践。 整体演示 user (源数据用户表,伪码): create table user ( id bigint, status int, create_time bigint, update_time bigint ) user_all( 阅读全文
posted @ 2020-04-20 14:32 Eric-Ln 阅读(655) 评论(0) 推荐(0) 编辑
摘要: 此篇文章是总结实际业务中遇到的计算场景问题。 hive 参数调优的文章很多,此篇文章不做类似方面的描述。 文章描述在数据统计场景中,可以通过hive 一些函数的组合使用,极大提高计算效率的方式。 选择一张表中的不同字段值转化为列 演示场景描述: 业务表表 A : table A ( id int, 阅读全文
posted @ 2020-04-01 01:43 Eric-Ln 阅读(960) 评论(0) 推荐(0) 编辑
摘要: 技术架构 Debezium + Confluent + Kafka + OSS/S3 整体设计预期实现效果 Debezium 采集binlog 数据,通过Confluent Source 写入Kafka , 通过 Confluent S3 Sink / Oss Sink 写入相应文件存储系统, 按照 阅读全文
posted @ 2020-03-29 16:52 Eric-Ln 阅读(736) 评论(0) 推荐(0) 编辑
摘要: 2020-03-01 组件版本 Confluent Platform:5.2.2 : https://www.confluent.io/ Debezium:1.0.0 : https://debezium.io/ Kafka:2.3.0 confluent 下载安装包需要注册一下账号,Platfor 阅读全文
posted @ 2020-03-01 22:38 Eric-Ln 阅读(1616) 评论(1) 推荐(0) 编辑