1周五总结

我们生活在这个数据大爆炸的时代，很难估算全球电子设备中存储的数据总共有多少。当前一个中小型公司的数据量也达到数十TB，甚至更多。

有句话说得好：“ 大数据胜于好算法。” 意思是说对于某些应用（譬如根据以往的偏好来推荐电影和音乐），不论算法有多牛，基于小数据的推荐效果往往都不如基于大量可用数据的一般算法的推荐效果。

我们遇到的问题很简单：在硬盘存储容量多年来不断提升的同时，访问速度（硬盘数据读取速度）却没有与时俱进。
第二个问题是大多数分析任务需要以某种方式结合大部分数据来共同完成分析，即从一个硬盘读取的数据可能需要与从另外 99 个硬盘中读取的数据结合使用。各种分布式系统允许结合不同来源的数据进行分析，但保证其正确性是一个非常大的挑战。

MapReduce 提出一个编程模型，该模型抽象出这些硬盘读写问题井将其转换为对一个数据集（由键值对组成）的计算。后文将详细讨论这个模型，这样的计算由 map 和 reduce 两部分组成，而且只有这两部分提供对外的接口。与HDFS 类似，MapReduce自身也有很高的可靠性。

MapReduce 看似采用了一种蛮力方法。每个查询需要处理整个数据集或至少一个数据集的绝大部分。但反过来想，这也正是它的能力。MapReduce 是一个批量查询处理器，能够在合理的时间范围内处理针对整个数据集的动态查询。它改变了我们对数据的传统看法，解放了以前只是保存在磁带和硬盘上的数据。它让我们有机会对数据进行创新。以前需要很长时间处理才能获得结果的问题，到现在变得顷刻之间就迎刃而解，同时还可以引发新的问题和新的见解。

posted @ 2023-12-07 12:17 liu_ru_jun 阅读(23) 评论(0) 收藏举报

刷新页面返回顶部

2023/12/1周五总结

公告