初识Hadoop

Hadoop与其它系统比较

  • 数据库的劣势:磁盘寻址性能低发展慢
  • 数据库索引?
  • MapReduce适合一次写入,多次读取的应用,关系型数据库适合持续更新的数据集
  • Hadoop在处理数据时才对数据进行解释(读时模式),所以对处理非结构化数据有优势
  • 传统分布式计算使用规范化数据(完整且无冗余),这就会存在数据的网络传输,当数据量大的时候,带宽就成为分布式计算性能的瓶颈
  • Hadoop尽量使用数据本地化,实现数据快速访问,造成的数据冗余不会成为问题,数据本地化是Hadoop的核心特性之一
  • MapReduce是一种无共享框架,各个任务之间是独立的,能够监测到失败任务并且重新在正常机器上再次执行