习惯了蓝

2022年6月17日

flink水位线和时间语义的链接

摘要： flink水位线和时间语义的链接阅读全文

posted @ 2022-06-17 21:21 习惯了蓝阅读(12) 评论(0) 推荐(0) 编辑

2022年6月10日

clickhouse的语法优化，建表优化，查询优化，materiallezemysql引擎网络连接

摘要：语法优化规则建表优化规则查询优化 MaterializeMySQL引擎阅读全文

posted @ 2022-06-10 22:42 习惯了蓝阅读(32) 评论(0) 推荐(0) 编辑

2022年6月8日

clickhouse的mergetree家族系列引擎网络资料整理

摘要：这里首先先备注一些常用的引擎特性，具体的可以去下方网络链接去查看 ReplacingMergeTree ➢实际上是使用 order by 字段作为唯一键 ➢ 去重不能跨分区 ➢ 只有同一批插入（新版本）或合并分区时才会进行去重 ➢ 认定重复的数据保留，版本字段值最大的 ➢ 如果版本字段相同则按插入顺阅读全文

posted @ 2022-06-08 21:40 习惯了蓝阅读(43) 评论(0) 推荐(0) 编辑

clickhouse的lib目录下的文件结构整理，以及数据写入和分区合并的概念

摘要：记录一下clickhouse存放数据的目录格式，版本是21.7.3.14 1. lib下的数据存储 2.主要关注metadata和data这俩个元数据存储和数据储存的目录，这是metadata 下的结构 3.点开default数据库，下面的结构，都是一些元数据的sql文件 4.以keyword_st 阅读全文

posted @ 2022-06-08 11:05 习惯了蓝阅读(712) 评论(0) 推荐(0) 编辑

2022年6月7日

clickhouse的主键和order by整理（来自网络）

摘要： ClickHouse 的主键索引采用的是稀疏索引，将每列数据按照 index granularity（默认8192行）进行划分。稀疏索引的好处是条目相对稠密索引较少，能够将其加载到内存，而且对插入时建立索引的成本相对较小。ClickHouse 数据按列进行存储，每一列都有对应的 mrk 标记文件，b 阅读全文

posted @ 2022-06-07 22:43 习惯了蓝阅读(6039) 评论(0) 推荐(0) 编辑

2022年6月1日

hbase八股整理

摘要： Client 包含访问hbase的接口，Client维护着一些cache来加快对hbase的访问，比如regione的位置信息. Zookeeper Zookeeper在HBase中的作用：保证任何时候，集群中只有一个master 存贮所有Region的寻址入口实时监控Region Server 阅读全文

posted @ 2022-06-01 10:53 习惯了蓝阅读(76) 评论(0) 推荐(0) 编辑

2022年5月23日

yarn架构整理以及 hdfs yarn mapreduce三者整体的运行流程以及yarn三种调度器的区别

摘要： yarn的基础架构 mr-yarn-hdfs任务提交全流程图解 yarn三种调度器的区别阅读全文

posted @ 2022-05-23 11:12 习惯了蓝阅读(29) 评论(0) 推荐(0) 编辑

2022年5月22日

mapreduce整理

摘要： mapreduce工作流程分成maptask和reducetask俩个阶段。其实就类似于spark和flink中的map算子和 reduce算子主要关注这几个方面逻辑切片如何决定maptask并行度 maptask计算开始前，job如何提交然后知道将文件分成多少逻辑切片 fileinputFor 阅读全文

posted @ 2022-05-22 20:37 习惯了蓝阅读(24) 评论(0) 推荐(0) 编辑

namenode和secondary namenode之间的工作原理整理，以及datanode 的工作机制和原理

摘要： namenode和secondary namenode中涉及到的主要概念就是 1 元数据 2 fsimage (备份元数据) 3 edits （操作日志） namenode为了快速响应随机访问，所以把元数据放在内存，同时为了防止断电导致元数据丢失，在磁盘上存在一个备份元数据的fsimage。当在内存阅读全文

posted @ 2022-05-22 17:13 习惯了蓝阅读(200) 评论(0) 推荐(0) 编辑

2022年5月21日

hdfs的块大小以及hdfs的读写流程

摘要： hdfs上的文件是以块为单位进行存储的大小一般设置为128m，不能太小，也不能太大。详细情况看以下链接 hdfs块大小设置原因 hdfs的写数据流程（1）客户端向 NameNode 请求上传文件，NameNode 检查目标文件是否已存在，父目录是否存在。（2）NameNode 返回是否可以上阅读全文

posted @ 2022-05-21 20:52 习惯了蓝阅读(301) 评论(0) 推荐(0) 编辑

公告