从0开始学大数据
一、大数据起源
2013年大数据元年。
分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。
Hadoop,主要包括 Hadoop 分布式文件系统 HDFS 和大数据计算引擎 MapReduce。
Facebook发布Hive。Hive 支持使用 SQL 语法来进行大数据计算,比如说你可以写个 Select 语句进行数据查询,然后 Hive 会把 SQL 语句转化成 MapReduce 的计算程序。
分布式文件系统HDFS,大数据分布式计算框架 Hive ,NoSQL 数据库系统-HBase。
通过从数据库,日志等获取的数据,sqoop,flume导入到大数据产品HDFS储存。Mapreduce,spark对储存的数据进行批计算处理,flink,storm等进行实时处理。Yarn负责对数据的资源调度。
名词解释:
1.
Hadoop生态
HDFS 分布式文件系统
MapReduce 大数据计算引擎
Hive 使用SQL进行大数据计算 - 将SQL转换为MapReduce的计算过程
Sqoop 将关系型数据库导入到Hadoop平台
Flume 大规模日志分布式收集聚合传输
Oozie MapReduce工作流调度
Yarn 资源调度,从MapReduce分离
Spark :MapReduce的升级,使用内存作为存储介质
离线计算框架: MapReuce、Spark 离
流式计算框架: Strom、Flink、Spark Streaming
2.
大数据应用: 数据分析 Hive 、Spark SQL
数据挖掘与机器学习: TensorFlow、Mahout、MLlib