摘要: 前言 今天分享的主题是 Flink SQL 带你玩转实时数据。在开始之前,我想说一下,目前国内越来越多一线互联网公司选择使用 Flink SQL 的方式来生产实时指标,而最近团队也刚好用 Flink SQL 完成了第一批的实时银指标生产,未来会有越来越多的实时指标需要上线,到时候需要各位同学帮忙。所 阅读全文
posted @ 2023-03-28 23:23 meicanhong 阅读(387) 评论(0) 推荐(1) 编辑
摘要: 测试结论 详细报告 测试表大小 19.31 GB 测试表数据条数 414839537 排序字段 wallet_address CREATE TABLE iceberg.beta_gold.protocol_active_address_sorted ( on_date date, chain var 阅读全文
posted @ 2023-03-21 22:32 meicanhong 阅读(72) 评论(0) 推荐(0) 编辑
摘要: Bitcask 介绍 Bitcask 是一种高性能的键值存储引擎,基于日志结构和哈希索引来提供高速的读写操作和数据持久性,适用于处理大量写入请求和快速查找键值对的应用场景。 核心概念 Bitcask 的设计与 LSM 相似,都是将数据追加到不可变的日志文件内,然后在内存中构建索引,将查询信息映射到日 阅读全文
posted @ 2023-03-19 21:40 meicanhong 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 背景 黑苹果电脑安装 win10 和 mac 双系统后,windows 上的时间一直都是早 8 小时的。在使用 windows 时看时间很不方便,于是本文提供一种 windows 开机自动校时的方法 解决方案 新增脚本 sync_time.bat,此脚本主要是在做同步时间 @echo off if 阅读全文
posted @ 2023-03-19 16:34 meicanhong 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 背景 最近团队打通了 trino-doris connector,可以通过 trino 读写 doris 上的数据。为了减少数据同步工作,尝试通过 dbt-trino 读写 doris 的方式来生产指标。 因为 trino-doris connector 没实现 doris 的建表逻辑,而 dbt 阅读全文
posted @ 2023-03-15 14:09 meicanhong 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 背景 最近线上的 trino 集群 master 节点老是因为 OOM crash,我们注意到 trino crash 前集群正在运行的查询数量正常,不太像是因为并发查询数据太多导致的 OOM。遂配置 trino master 的 jvm,使其在崩溃后生成一份 dump 文件,方便我们进行问题排查。 阅读全文
posted @ 2023-03-13 13:35 meicanhong 阅读(391) 评论(0) 推荐(2) 编辑
摘要: 数据治理 Flink 实时写入 Iceberg 带来的问题 在实时数据源源不断经过 Flink 写入的 Iceberg 的过程中,Flink 通过定时的 Checkpoint 提交 snapshot commit 操作到 Iceberg,将已写入到 Iceberg 的数据文件通过 Snapshot 阅读全文
posted @ 2023-02-25 20:33 meicanhong 阅读(1138) 评论(0) 推荐(0) 编辑
摘要: 想要实现数据增量写入数据库,可以选择 dbt 增量模型。通过 dbt 增量模型,我们只用专注于写日增 SQL,不用去关注于如何安全的实现增量写入。 dbt 增量模型解决了什么问题 原子性写入:任何情况下,增量写入只有一个程序在写入。 假设增量程序已经上线,线上增量程序在执行的同时,开发也在本地执行增 阅读全文
posted @ 2023-01-01 14:57 meicanhong 阅读(583) 评论(0) 推荐(0) 编辑
摘要: 什么是分布式锁 分布式锁:不同进程必须以互斥方式使用共享资源的一种锁方法实现。 实现分布式锁的基础 互斥。任何时刻,只有一个客户端持有锁。 无死锁。最终总是有可能获得锁,即使持有锁的客户端已经崩溃。 单个 Redis 分布式锁实现 上锁 上锁需要考虑俩点 原子性 锁能自动释放 首先要考虑持有锁的客户 阅读全文
posted @ 2022-12-11 18:24 meicanhong 阅读(536) 评论(0) 推荐(0) 编辑
摘要: 背景 公司有个项目专门做从外部接口取数的,为了保证取数程序的稳定性,我们引入了RabbitMQ,主要用上了MQ的错误重试机制、MQ的分布式的生产消费能力,还有消息处理的可视化能力。基于这些,方便我们安心将任务放在上面跑,并且能水平扩容消费进程数,还可以清晰知道每个队列的任务消费情况。 问题 程序跑了 阅读全文
posted @ 2022-11-30 00:07 meicanhong 阅读(1806) 评论(0) 推荐(0) 编辑