数据迁移
1.概述
大数据组件中数据量较大且都是分布式的,跨集群的迁移主要用作备份。
2.HDFS
可以通过分析editlog来确定数据变更的分区,然后通过distcp命令来完成。
3.HBase
可以通过TimeRange来查询增量数据
在old cluster中每一个regionserver下
<property>
<name>hbase.replication</name>
<value>true</value>
</property>
然后执行命令,add_peer new cluster id
4.es
可以通过增量快照的方式
注册一个仓库,存放快照,记住,这里不是生成快照,只是注册一个仓库
curl -XPUT 'http://*.*.*.*:9200/_snapshot/my_backup' -H 'Content-Type: application/json' -d '{
"type": "fs",
"settings": {
"location": "/data/es_backup",
"compress": true
}
}'
查看仓库信息:
curl -XGET 'http://*.*.*.*:9200/_snapshot/my_backup?pretty'
恢复快照:
创建全部快照,也可以根据索引创建快照
curl -XPUT '*.*.*.*:9200/_snapshot/my_backup/snapshot_20171020?wait_for_completion=true&pretty'