Eric-Ln

2023年7月11日

摘要：前言接之前的spark踩坑记录，回想起当时折磨很久的一个问题，结果导致开发中花了很长时间才完全解决。主要原因为spark 和 java 的字符串截取函数不一致导致的。主要技术框架背景介绍 spark ： 2.4.3scala ： 2.11.12 背景实际工作中会处理很多文本数据流，例如文章信息阅读全文

posted @ 2023-07-11 17:40 Eric-Ln 阅读(348) 评论(0) 推荐(0)

Hive 的执行优化问题小结

摘要： hive 的谓词下推和optimize优化功能的讨论 sql 核心的大概结构为 with user_table as ( select user_id from user ) select t1.user_id from ( select t1.user_id, .... from ( select 阅读全文

posted @ 2023-07-11 11:53 Eric-Ln 阅读(27) 评论(0) 推荐(0)

2020年8月13日

Spark采坑记录(一)：json格式字符串转化为复杂数据结构

摘要：前言目前公司的批开发框架基于spark, 流式处理基于structure streaming和spark sql。目前整体开发流程与大部分流式开发平台想法一致，将数据的ETL操作分割成独立功能的operator，其中采坑的部分与SqlOperator有关。顾名思义，此operator的作用是将阅读全文

posted @ 2020-08-13 23:47 Eric-Ln 阅读(2667) 评论(0) 推荐(0)

2020年5月13日

Binlog实时数据采集、落地数据使用的思考总结

摘要：前文今天偶然刷新技术公众号的时候，看到一篇这样文章，是基于Flink有关于Mysql Binlog数据采集的方案，看了一下实践方法和具体操作有一些考虑情况不足的情况，缺少一些处理实际情况的操作。笔者之前有些过一些类似的采集工具实践的文章，但是并没有在整体上做出一个系统性的总结，所以我在想，是不是可阅读全文

posted @ 2020-05-13 19:56 Eric-Ln 阅读(2407) 评论(0) 推荐(0)

2020年4月21日

Hive 外部表处理技巧(二)

摘要：记录日常工作中实际场景中，对hive分区表的一次启发与实践。核心操作技巧 hive 指定分区locaiton，进行不同存储位置或协议的数据读取。业务背景在业务发展过程中，发现ucloud在某些峰值场景下会出现严重的数据问题，为了服务稳定性与存储可靠性，需要做整体服务云迁移的需求。整体迁移技术阅读全文

posted @ 2020-04-21 18:15 Eric-Ln 阅读(1007) 评论(0) 推荐(0)

2020年4月20日

极限存储综合实践

摘要：前言本文主要参考淘宝极限存储方案，并结合其他参考文章，总结实践。整体演示 user （源数据用户表，伪码）: create table user ( id bigint, status int, create_time bigint, update_time bigint ) user_all（阅读全文

posted @ 2020-04-20 14:32 Eric-Ln 阅读(719) 评论(0) 推荐(0)

2020年4月1日

Hive 数据处理技巧总结（一）

摘要：此篇文章是总结实际业务中遇到的计算场景问题。 hive 参数调优的文章很多，此篇文章不做类似方面的描述。文章描述在数据统计场景中，可以通过hive 一些函数的组合使用，极大提高计算效率的方式。选择一张表中的不同字段值转化为列演示场景描述：业务表表 A ： table A ( id int, 阅读全文

posted @ 2020-04-01 01:43 Eric-Ln 阅读(988) 评论(0) 推荐(0)

2020年3月29日

基于Confluent Mysql Binlog 数据遇到的问题以及解决方式

摘要：技术架构 Debezium + Confluent + Kafka + OSS/S3 整体设计预期实现效果 Debezium 采集binlog 数据，通过Confluent Source 写入Kafka ，通过 Confluent S3 Sink / Oss Sink 写入相应文件存储系统，按照阅读全文

posted @ 2020-03-29 16:52 Eric-Ln 阅读(775) 评论(0) 推荐(0)

2020年3月1日

Confluent + Debezium binlog数据采集平台搭建

摘要： 2020-03-01 组件版本 Confluent Platform:5.2.2 : https://www.confluent.io/ Debezium:1.0.0 : https://debezium.io/ Kafka:2.3.0 confluent 下载安装包需要注册一下账号，Platfor 阅读全文

posted @ 2020-03-01 22:38 Eric-Ln 阅读(1726) 评论(1) 推荐(0)

终会相见与离开，来日方长。

公告