摘要:
flink水位线和时间语义的链接 阅读全文
摘要:
语法优化规则 建表优化规则 查询优化 MaterializeMySQL引擎 阅读全文
摘要:
这里首先先备注一些常用的引擎特性,具体的可以去下方网络链接去查看 ReplacingMergeTree ➢实际上是使用 order by 字段作为唯一键 ➢ 去重不能跨分区 ➢ 只有同一批插入(新版本)或合并分区时才会进行去重 ➢ 认定重复的数据保留,版本字段值最大的 ➢ 如果版本字段相同则按插入顺 阅读全文
摘要:
记录一下clickhouse存放数据的目录格式,版本是21.7.3.14 1. lib下的数据存储 2.主要关注metadata和data这俩个元数据存储和数据储存的目录,这是metadata 下的结构 3.点开default数据库,下面的结构,都是一些元数据的sql文件 4.以keyword_st 阅读全文
摘要:
ClickHouse 的主键索引采用的是稀疏索引,将每列数据按照 index granularity(默认8192行)进行划分。稀疏索引的好处是条目相对稠密索引较少,能够将其加载到内存,而且对插入时建立索引的成本相对较小。ClickHouse 数据按列进行存储,每一列都有对应的 mrk 标记文件,b 阅读全文
摘要:
Client 包含访问hbase的接口,Client维护着一些cache来加快对hbase的访问,比如regione的位置信息. Zookeeper Zookeeper在HBase中的作用: 保证任何时候,集群中只有一个master 存贮所有Region的寻址入口 实时监控Region Server 阅读全文
摘要:
yarn的基础架构 mr-yarn-hdfs任务提交全流程图解 yarn三种调度器的区别 阅读全文
摘要:
mapreduce工作流程分成maptask和reducetask俩个阶段。其实就类似于spark和flink中的map算子和 reduce算子 主要关注这几个方面 逻辑切片如何决定maptask并行度 maptask计算开始前,job如何提交然后知道将文件分成多少逻辑切片 fileinputFor 阅读全文
摘要:
namenode和secondary namenode中涉及到的主要概念就是 1 元数据 2 fsimage (备份元数据) 3 edits (操作日志) namenode为了快速响应随机访问,所以把元数据放在内存,同时为了防止断电导致元数据丢失,在磁盘上存在一个备份元数据的fsimage。当在内存 阅读全文
摘要:
hdfs上的文件是以块为单位进行存储的 大小一般设置为128m,不能太小,也不能太大。 详细情况看以下链接 hdfs块大小设置原因 hdfs的写数据流程 (1)客户端向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。 (2)NameNode 返回是否可以上 阅读全文