《Hadoop权威指南·大数据的存储与分析》阅读笔记(未读完)
Hadoop基础知识:1.MapReduce 执行引擎
2.HDFS
3.Yarn
4.Hadoop的I/O操作
Hadoop相关开源项目:1. Avro 数据格式
2.Parquet
3.Flume 数据摄取
4.Sqoop
5.Pig 数据处理
6.Hive
7.Cruch
8.Spark
9.Hbase 存储
10.Zookeeper 协作
Haoop相关开源项目:
8. Spark 大数据处理的集群计算框架
spark没有使用MapReduce作为执行引擎,而是使用自身的分布式运行环境在集群上执行工作
spark内最核心的概念是RDD,弹性分布式数据集,集群中跨多个机器分区存储的只读的对象集合(弹性:可以通过安排计算重新得到丢失的分区)
spark有延迟执行的机制,就是点那个加载RDD或者转换的时候并不会立即触发任何数据处理的操作,只不过是创建了一个计算的计划,只有当对RDD执行某个动作的时候才会真正执行。所以spark中的job与MapReduce中的job不同,Spark中的job是由多个阶段组成的一个有向无环图,每个阶段都相当于MapReduce中的Map或者Reduce,这些阶段会被分布在Spark内并行执行。
弹性分布式数据集RDD:
创建:来自内存中的对象集合;使用外部存储器中的数据集;现有RDD的转换
redis的持久化: