返回顶部

hadoop 第一章 初识Hadoop

数据的存储与分析

  1. 多年来,硬盘存储容量快速增加,但访问速度--数据从硬盘读取的速度,确未能与时俱进;
  2. 从一个驱动器上读取所有的数据需要很长时间,写甚至更慢;
  3. 一个很简单的减少读取时间的办法:同时从多个磁盘上读写数据

这也是,Hadoop 的MapReduce的最大优势,或者解决的最大的问题。

关系型数据库管理系统

为什么不能使用数据库MySQL,加上更多磁盘来做大规模的批量分析?为什么需要MapReduce?

  1. 这个问题的答案来自于磁盘驱动器的另一个发展趋势:寻址时间的提高速度远远慢于传输速率的提高速度
  2. 寻址:将磁头移动到特定位置,进行读写操作的工序;
  3. 寻址特点:磁盘操作有延迟,而传输速率对应于磁盘的带宽;
  4. 在更新小部分数据库记录的时候,传统的B树效果很好,但在更新大部分数据库数据的时候,B树的效率就没有MapReduce的效率高,因为它需要使用排序/合并重建数据库
posted @ 2020-11-19 21:08  Be-myself  阅读(94)  评论(0编辑  收藏  举报
levels of contents 点击查看具体代码内容