随笔分类 - 技术原理-一图胜千言
一图胜千言
摘要:一些必须提前知道的概念 patition kafka日志文件是以patition在物理存储上分割的 是topic物理上的分组,一个topic可以分为多个partition,每个partition是一个有序的队列 是以文件夹的形式存储在具体Broker本机上 LEO 表示每个partition的log
阅读全文
摘要:HDFS由namenode以及datanode两个角色组成 NameNode 作用 1、NameNode 负责整个分布式文件系统的元数据(MetaData)管理,也就是文件路径名、数据块的 ID 以及存储位置等信息2、接受DD上报的信息3、给DD分配任务(维护副本数) 元数据的存储文件方式:edit
阅读全文
摘要:spark调度的几个概念 集群 一个spark集群可以同时运行多个spark应用 应用 1、main方法、spark-shell、spark-submit能够运行的spark程序 2、可以理解为创建SparkContext的driver运行的程序 3、一个spark应用可以运行多个job job j
阅读全文
摘要:LSM-Tree简介 LSM Tree(Log Structure Merge Tree)是一种数据结构 从字面意思理解,是一种基于日志追加写、有一定结构、并且会merge合并的树(数据结构) 特点是: ①利用磁盘批量的顺序写要远比随机写性能高出很多来支持随机读写操作 ②更适用于写多读少类型的场景
阅读全文
摘要:倒排索引存储-分段存储(lucene的功能)在lucene中:lucene index包含了若干个segment在elasticsearch中:index包含了若干主从shard,shard包干了若干segmentsegment是elasticsearch中存储的最小文件单元,也就是分段存储,seg
阅读全文