2012 年 7月 20 日随笔档案 - honkcal

2012年7月20日

摘要：数据存储与分析要实现对多个磁盘数据的并行读写需要解决的很多问题1 硬件故障问题。硬件多了，发生故障的概率变大。避免数据丢失的是备份。RAID(冗余磁盘阵列)，HDFS2 大多数分析任务需要以某种方式结合大部分数据共同完成分析任务，一个磁盘读取得数据可能需要和另外的99个磁盘中读取的数据结合使用，各种分布式系统允许结合多个来源的数据并实现分析，但保证其正确性是一个很大的挑战，MapReduce提出一个编程模型，该模型将上述磁盘读写问题进行抽象，转换为一个对数据集(由键/值对组成)的计算。该计算由map和reduce两部分组成，而只有这两部分提供对外的接口。与HDFS类似，MapReduc 阅读全文

posted @ 2012-07-20 11:15 honkcal 阅读(301) 评论(0) 推荐(0) 编辑

MapReduce广泛应用技术原因（序篇）

摘要： 1 MapReduce采用无共享大规模集群系统，集群系统的好的性价比和可伸缩性，这个优势使得MapReduce成为大规模海量数据的首选条件2MapReduce模型简单，易于理解，使用，大量数据处理问题包括很多机器学习和数据挖掘算法，都可以使用MapReduce实现3虽然基本的MapReduce模型只是提供一个过程性的编程接口，但是在海量数据环境需要保证可伸缩性的前提下，通过合适的查询优化和索引技术，MapReduce仍然能够提供好的数据处理性能阅读全文

posted @ 2012-07-20 10:17 honkcal 阅读(244) 评论(0) 推荐(0) 编辑

Honkcal

有些东西很简单。有些东西很难，难了就多看几遍，便简单了。

公告