hbase数据迁移
1.概述
主要应用于灾难备份,集群间的数据迁移
2.流程图
put:代表一个插入批次
FSHLog:hbase中wal的实现
entries:hbase的数据记录,一个entry包含一系列cell,tableName,Columnfamily,sequenceId,writeTime,encodedRegionName,origLogSeqNum等字段
replicationContext:一个包含entries,entries的长度,timeout,walGroupId四个字段的对象
1.一次(put)插入在写入数据时先写入FSHLog,写入FSHLog的一个put就是一个entry。
2.old cluster集群的regionserver调用new cluster的RPC接口,将数据以replicationContext的形式传给new cluster的RegionServer.
3.new Cluster将replicationEndpoint解析并将数据写入HFile。
关于数据放大:
entry中sequenceId,writeTime,encodedRegionName,origLogSeqNum等字段就是数据传输的数据放大字段,
如果一条数据一条数据写入则数据放大最为严重,若只写一次写入全表数据则数据基本不会放大