摘要:
数据存储与分析要实现对多个磁盘数据的并行读写 需要解决的很多问题1 硬件故障问题。硬件多了,发生故障的概率变大。避免数据丢失的是备份。RAID(冗余磁盘阵列),HDFS2 大多数分析任务需要以某种方式结合大部分数据共同完成分析任务,一个磁盘读取得数据可能需要和另外的99个磁盘中 读取的数据结合使用,各种分布式系统允许结合多个来源的数据并实现分析,但保证其正确性是一个很大的挑战,MapReduce提出一个编程模型,该模型将上述磁盘读写问题进行抽象,转换为一个对数据集(由 键/值 对组成)的计算。该计算由map和reduce两部分组成,而只有这两部分提供对外的接口。与HDFS类似,MapReduc 阅读全文
摘要:
1 MapReduce采用无共享大规模集群系统,集群系统的好的性价比和可伸缩性,这个优势使得MapReduce成为大规模海量数据的首选条件2MapReduce模型简单,易于理解,使用,大量数据处理问题包括很多机器学习和数据挖掘算法,都可以使用MapReduce实现3虽然基本的MapReduce模型只是提供一个过程性的编程接口,但是在海量数据环境需要保证可伸缩性的前提下,通过合适的查询优化和索引技术,MapReduce仍然能够提供好的数据处理性能 阅读全文