从0开始学大数据

一、大数据起源

2013年大数据元年。

分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。

 Hadoop,主要包括 Hadoop 分布式文件系统 HDFS 和大数据计算引擎 MapReduce。

Facebook发布Hive。Hive 支持使用 SQL 语法来进行大数据计算,比如说你可以写个 Select 语句进行数据查询,然后 Hive 会把 SQL 语句转化成 MapReduce 的计算程序。

分布式文件系统HDFS,大数据分布式计算框架 Hive ,NoSQL 数据库系统-HBase。

通过从数据库,日志等获取的数据,sqoop,flume导入到大数据产品HDFS储存。Mapreduce,spark对储存的数据进行批计算处理,flink,storm等进行实时处理。Yarn负责对数据的资源调度。

 名词解释:

1.

Hadoop生态

HDFS 分布式文件系统

MapReduce 大数据计算引擎

Hive 使用SQL进行大数据计算 - 将SQL转换为MapReduce的计算过程

Sqoop 将关系型数据库导入到Hadoop平台

Flume 大规模日志分布式收集聚合传输

Oozie MapReduce工作流调度

Yarn 资源调度,从MapReduce分离

Spark :MapReduce的升级,使用内存作为存储介质

离线计算框架: MapReuce、Spark 离

流式计算框架: Strom、Flink、Spark Streaming

2.

大数据应用: 数据分析 Hive 、Spark SQL

数据挖掘与机器学习: TensorFlow、Mahout、MLlib

posted @ 2024-07-08 10:46  尘恍若梦  阅读(13)  评论(0编辑  收藏  举报