一致性模型对系统设计的重要性,数据的备份

 文件系统的一致性和应用程序的方法有关,如果不调用sync(),就需要做好因为客户端异常或者服务端故障而缺失部分数据。缺失数据这对应用来说是不可接受的。所以需要在合适的地方调用sync(),比如在写入一定量的数据后,尽管sync()用来最大限度的减轻hdfs的负担,但是他仍有不可忽视的开销。所以你需要在数据的健壮性和吞吐量之间做好权衡,其中一个好的平衡点:通过测试应用程序来选择sync频率间性能的平衡点

 
 
hadoop的设计目标之一就是能够在可靠的分布式集群上数据存储,hdfs允许数据丢失,所以数据备份就显的很重要。备份哪些数据,数据备份到哪里,这就比较关键。在备份过程中,最优先备份的应该是那些不可恢复,商业价值重要的数据
强调:不要认为hdfs的副本机制可以代替数据的备份
posted @ 2016-12-26 15:46  卖臭豆腐喽  阅读(250)  评论(0编辑  收藏  举报