摘要: 目前Data的暴增量无比惊人,对于数据的存储与分析到达一个新的困境,磁盘存储增加速度很快,但是在IO方面---磁盘传输或磁盘读取却始终未能跟进磁盘容量更新的脚步,采用多磁盘并行无疑是网络数据处理的最佳模式,然而,其中有很多问题: 1、数据分批存储在多个磁盘,如果某个设备故障,将导致数据不完整,常用解决办法采用磁盘阵列备份,虽然这样会带来一定的经济承担。 2、有些基于统计学的数据必须在所有数据都加载之后才能显现出其所存在的科学意义,不能只单纯的处理某个节点所加载的数据单元。 需求出现:需要一个分布式的系统,提供分批存储、阵列备份、数据分析、结果综合的海量数据处理功能。 MapRedu... 阅读全文
posted @ 2013-12-10 00:54 hadoop在云端 阅读(255) 评论(6) 推荐(0) 编辑