摘要: flink水位线和时间语义的链接 阅读全文
posted @ 2022-06-17 21:21 习惯了蓝 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 语法优化规则 建表优化规则 查询优化 MaterializeMySQL引擎 阅读全文
posted @ 2022-06-10 22:42 习惯了蓝 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 这里首先先备注一些常用的引擎特性,具体的可以去下方网络链接去查看 ReplacingMergeTree ➢实际上是使用 order by 字段作为唯一键 ➢ 去重不能跨分区 ➢ 只有同一批插入(新版本)或合并分区时才会进行去重 ➢ 认定重复的数据保留,版本字段值最大的 ➢ 如果版本字段相同则按插入顺 阅读全文
posted @ 2022-06-08 21:40 习惯了蓝 阅读(41) 评论(0) 推荐(0) 编辑
摘要: 记录一下clickhouse存放数据的目录格式,版本是21.7.3.14 1. lib下的数据存储 2.主要关注metadata和data这俩个元数据存储和数据储存的目录,这是metadata 下的结构 3.点开default数据库,下面的结构,都是一些元数据的sql文件 4.以keyword_st 阅读全文
posted @ 2022-06-08 11:05 习惯了蓝 阅读(655) 评论(0) 推荐(0) 编辑
摘要: ClickHouse 的主键索引采用的是稀疏索引,将每列数据按照 index granularity(默认8192行)进行划分。稀疏索引的好处是条目相对稠密索引较少,能够将其加载到内存,而且对插入时建立索引的成本相对较小。ClickHouse 数据按列进行存储,每一列都有对应的 mrk 标记文件,b 阅读全文
posted @ 2022-06-07 22:43 习惯了蓝 阅读(5760) 评论(0) 推荐(0) 编辑
摘要: Client 包含访问hbase的接口,Client维护着一些cache来加快对hbase的访问,比如regione的位置信息. Zookeeper Zookeeper在HBase中的作用: 保证任何时候,集群中只有一个master 存贮所有Region的寻址入口 实时监控Region Server 阅读全文
posted @ 2022-06-01 10:53 习惯了蓝 阅读(50) 评论(0) 推荐(0) 编辑
摘要: yarn的基础架构 mr-yarn-hdfs任务提交全流程图解 yarn三种调度器的区别 阅读全文
posted @ 2022-05-23 11:12 习惯了蓝 阅读(24) 评论(0) 推荐(0) 编辑
摘要: mapreduce工作流程分成maptask和reducetask俩个阶段。其实就类似于spark和flink中的map算子和 reduce算子 主要关注这几个方面 逻辑切片如何决定maptask并行度 maptask计算开始前,job如何提交然后知道将文件分成多少逻辑切片 fileinputFor 阅读全文
posted @ 2022-05-22 20:37 习惯了蓝 阅读(20) 评论(0) 推荐(0) 编辑
摘要: namenode和secondary namenode中涉及到的主要概念就是 1 元数据 2 fsimage (备份元数据) 3 edits (操作日志) namenode为了快速响应随机访问,所以把元数据放在内存,同时为了防止断电导致元数据丢失,在磁盘上存在一个备份元数据的fsimage。当在内存 阅读全文
posted @ 2022-05-22 17:13 习惯了蓝 阅读(168) 评论(0) 推荐(0) 编辑
摘要: hdfs上的文件是以块为单位进行存储的 大小一般设置为128m,不能太小,也不能太大。 详细情况看以下链接 hdfs块大小设置原因 hdfs的写数据流程 (1)客户端向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。 (2)NameNode 返回是否可以上 阅读全文
posted @ 2022-05-21 20:52 习惯了蓝 阅读(251) 评论(0) 推荐(0) 编辑