07 2020 档案
摘要:kafka channel的parseAsFlumeEvent解析event Kafka Channel的parseAsFlumeEvent的默认值为true,即会为对source来的数据进行解析,解析完会对数据前加前缀,前缀为topic名,因此这种情况,下游会需要做额外的截取工作,所以,当不需要前缀名时,将该属性设置为false. 实际中使用kafkachannel, 使用header中时间...
阅读全文
摘要:HDFS写流程 client -> namenode: 请求上传第一个block -> 收到可上传的节点(距离感知, 机架感知) -> 节点之间建立通信管道 -> 以Packet为单位传输数据(Packet中的单位chunk, 默认512B, 并校验) -> 传输完成后再次向namenode请求, 上传下一个block 通信管道建立后, 确认队列(ack queue)等待传输结果, ...
阅读全文
摘要:LSM树由来、设计思想以及应用到HBase的索引
阅读全文
摘要:基本概念 HFile文件 保存在磁盘的hbase表数据文件, 格式为HFile。数据块为存储单元, 默认认大小64KB。 MemStore 写缓存,由于HFile中的数据要求是有序的,数据是先在MemStore中,排好序后,再刷写到HFile. 每次刷写都会形成一个新的HFile。 WAL 数据会先写WAL(Write-Ahead logfile)日志文件文件中,然后再写入MemSto...
阅读全文
摘要:目的 在执行刷写时,将部分过时的数据舍去,最多保留列族VERSIONS数量的put类型的cell. 在刷写时,会将memstore中的rowkey进行排序后,再刷写,方便在查询时,快速检索数据 手动刷写 flush "表名" flush "region名" 刷写后磁盘上的HFile文件可以通过HBase提供的工具查看 habase org.apache.hadoop.hhase.io...
阅读全文
摘要:WAL机制概述 WAL(Write-ahead logging)预写式日志, 为数据库系统提供原子性和持久化的一些列操作, 几乎在所有非内存数据库都会使用. WAL机制不仅可以提升写性能, 还可以保证数据可靠性. WAL关键点在于先写日志再写磁盘。 在数据写入之前首先顺序写入日志,然后再写入缓存,等
阅读全文