摘要: 当我们谈论批流一体,我们在谈论什么? 一、流计算与批计算 一)流计算与批计算 流计算:无限数据之上的计算 批计算:有限数据之上的计算 二)流计算与批计算的比较 特性 批计算 流计算 数据范围 有界数据 无界数据 任务执行 分批执行、有终止 全部执行、无终止 延时 小时级、天级 秒级、分钟级 数据场景 阅读全文
posted @ 2021-11-22 09:31 boiledwater 阅读(8116) 评论(0) 推荐(2) 编辑
摘要: 1.创建namespace kubectl create namespace flink-session-cluster-test 2.创建账号 kubectl create serviceaccount flink-test -n flink-session-cluster-test 3.创建角色 阅读全文
posted @ 2021-11-19 10:04 boiledwater 阅读(618) 评论(0) 推荐(0) 编辑
摘要: storm作为第一款大数据领域的流式计算引擎,在2013年推出之后风头一时无二。后续虽然有spark streaming也作为流式计算的引擎,但storm依然在流式计算的江湖占有稳定的地位。直到2017年,flink作为流式计算引擎异军突起,几年间,风云突变,流计算言必谈flink。 诚然,flin 阅读全文
posted @ 2021-09-15 14:42 boiledwater 阅读(438) 评论(0) 推荐(0) 编辑
摘要: ## 什么是 Compaction Doris 的数据写入模型使用了 LSM-Tree 类似的数据结构。数据都是以追加(Append)的方式写入磁盘的。这种数据结构可以将随机写变为顺序写。这是一种面向写优化的数据结构,他能增强系统的写入吞吐,但是在读逻辑中,需要通过 Merge-on-Read 的方 阅读全文
posted @ 2021-09-13 10:42 boiledwater 阅读(3281) 评论(0) 推荐(0) 编辑
摘要: 1.getResource //当前类文件为根目录,取其子目录x下的y文件 Main.class.getResource("x/y") //当前类文件的根目录为根目录,取其子目录x下的y文件 Main.class.getResource("/x/y") 上面的解释有点拗口,其实就是路径不以斜线开头, 阅读全文
posted @ 2020-09-03 16:24 boiledwater 阅读(2611) 评论(0) 推荐(0) 编辑
摘要: 一、写在前面 1.1 线程池是什么 线程池(Thread Pool)是一种基于池化思想管理线程的工具,经常出现在多线程服务器中,如MySQL。 线程过多会带来额外的开销,其中包括创建销毁线程的开销、调度线程的开销等等,同时也降低了计算机的整体性能。线程池维护多个线程,等待监督管理者分配可并发执行的任 阅读全文
posted @ 2020-04-10 22:01 boiledwater 阅读(581) 评论(0) 推荐(0) 编辑
摘要: 在这篇文章中,我想比较ClickHouse,Druid和Pinot,这三个开源数据存储区,他们通过交互延迟对大量数据运行分析查询。 警告:这篇文章很大,您可能只想阅读最后的“摘要”部分。 信息来源 我从核心开发人员之一Alexey Zatelepin那里了解了ClickHouse的实现细节。用英语提 阅读全文
posted @ 2020-04-10 21:39 boiledwater 阅读(17802) 评论(0) 推荐(0) 编辑
摘要: 数据查询 Druid的聚合查询主要有三种形式: Timeseries TopN GroupBy 一般而言,OLAP系统最核心的能力是GroupBy查询,Druid也不例外。 但是GroupBy查询资源消耗较多,TopN和Timeseries作为GroupBy的有益补充,能够改善查询的性能。我们建议: 阅读全文
posted @ 2020-04-08 22:37 boiledwater 阅读(906) 评论(0) 推荐(0) 编辑
摘要: 实时数据摄入 我们采用Kafka Indexing Service作为实时摄入数据的方案。 准备工作 将数据实时灌入某个Kafka topic中 与批量导入数据类似:考虑清楚数据中哪一列可以作为时间列、哪些列可以作为维度列、哪些列可以作为指标列(尤其是指标的聚合函数,包括count、sum、max、 阅读全文
posted @ 2020-04-08 22:33 boiledwater 阅读(836) 评论(0) 推荐(1) 编辑
摘要: 批量数据摄入 准备工作 确保druid帐号可以访问到位于HDFS之上的原始数据 考虑清楚数据中哪一列可以作为时间列、哪些列可以作为维度列、哪些列可以作为指标列(尤其是指标的聚合函数,包括count、sum、max、min等,如果涉及UV、留存的计算,则需要使用HyperUnique或者Theta s 阅读全文
posted @ 2020-04-08 22:30 boiledwater 阅读(806) 评论(0) 推荐(0) 编辑