《Hadoop权威指南·大数据的存储与分析》阅读笔记（未读完）

Hadoop基础知识：1.MapReduce 执行引擎

2.HDFS

3.Yarn

　　　　　　　　 4.Hadoop的I/O操作

Hadoop相关开源项目：1. Avro 数据格式

　　　　　　　　　　 2.Parquet

3.Flume 数据摄取

　　　　　　　　　　 4.Sqoop

5.Pig 数据处理

6.Hive

7.Cruch

8.Spark

9.Hbase 存储

10.Zookeeper 协作

Haoop相关开源项目：

8. Spark 大数据处理的集群计算框架

spark没有使用MapReduce作为执行引擎，而是使用自身的分布式运行环境在集群上执行工作

spark内最核心的概念是RDD，弹性分布式数据集，集群中跨多个机器分区存储的只读的对象集合（弹性：可以通过安排计算重新得到丢失的分区）

spark有延迟执行的机制，就是点那个加载RDD或者转换的时候并不会立即触发任何数据处理的操作，只不过是创建了一个计算的计划，只有当对RDD执行某个动作的时候才会真正执行。所以spark中的job与MapReduce中的job不同，Spark中的job是由多个阶段组成的一个有向无环图，每个阶段都相当于MapReduce中的Map或者Reduce，这些阶段会被分布在Spark内并行执行。

弹性分布式数据集RDD:

创建：来自内存中的对象集合；使用外部存储器中的数据集；现有RDD的转换

redis的持久化：

posted @ 2019-04-10 14:58 Flower_Z 阅读(190) 评论(0) 收藏举报

刷新页面返回顶部

《Hadoop权威指南·大数据的存储与分析》阅读笔记（未读完）

公告