大数据发展里程-Hadoop视角

周末查询了一些大数据相关的资料,今天简单以Hadoop的视角来总结一下我对大数据发展里程的总结:


2004:Google 发表大数据论文,  “三驾马车”横空出世

  1.     分布式文件系统 GFS

  2.     大数据分布式计算框架 MapReduce

  3.     NoSQL 数据库系统 BigTable


2006:Nutch 搜索引擎 分离出 Hadoop  

  Doug Cutting 将大数据相关的功能从 Nutch 中分离出来

  1.     HDFS,分布式文件存储

  2.     MapReduce,分布式计算引擎、资源调度框架


2007:陆续应用于 雅虎、百度、阿里 等企业

    Hadoop 应用于互联网大厂的大数据存储与计算


2008Hadoop 成为 Apache 顶级项目

  1. Cloudera 成立,运营 Hadoop 的商业公司

  2. Pig(Yahoo 开发)  脚本语言 转换为 MapReduce 任务

  3. Hive (Facebook 开发) 用 SQL 转换为 MapReduce 任务 

  4. Cassandra (Facebook 开发) 分布式 NoSQL 数据库


2011:Hadoop 生态逐步形成

  1. Sqoop 数据导入、导出工具

  2. Flume 日志分布式 收集、聚合、传输

  3. Oozie 工作流调度引擎

  4. HBase 基于 HDFS 的 NoSQL 系统

  5. Cassandra 分布式 NoSQL 数据库,逐渐流行


2012Yarn 资源调度系统

    Spark 开始崭露头角:源于 伯克利 AMP 实验室。

新概念引入:

  1. 批处理计算、大数据离线计算

    • 代表:MapReduce、Spark

  2. 大数据流计算、大数据实时计算

  3. 大数据分析与大数据仓库

  4. 大数据挖掘与机器学习


   本次总结粒度比较粗,面相对窄。后续我们继续

posted @ 2021-08-30 16:52  higkoo  阅读(60)  评论(1编辑  收藏  举报