hadoop 第一章 初识Hadoop
数据的存储与分析
- 多年来,硬盘存储容量快速增加,但访问速度--数据从硬盘读取的速度,确未能与时俱进;
- 从一个驱动器上读取所有的数据需要很长时间,写甚至更慢;
- 一个很简单的减少读取时间的办法:同时从多个磁盘上读写数据;
这也是,Hadoop 的MapReduce的最大优势,或者解决的最大的问题。
关系型数据库管理系统
为什么不能使用数据库MySQL,加上更多磁盘来做大规模的批量分析?为什么需要MapReduce?
- 这个问题的答案来自于磁盘驱动器的另一个发展趋势:寻址时间的提高速度远远慢于传输速率的提高速度;
- 寻址:将磁头移动到特定位置,进行读写操作的工序;
- 寻址特点:磁盘操作有延迟,而传输速率对应于磁盘的带宽;
- 在更新小部分数据库记录的时候,传统的B树效果很好,但在更新大部分数据库数据的时候,B树的效率就没有MapReduce的效率高,因为它需要使用排序/合并重建数据库