摘要:
【教程1】https://blog.csdn.net/shiyutianming/article/details/99946797 + 【教程2】http://dblab.xmu.edu.cn/blog/1689-2/ 两个对照着理解一下就行了,apache-spark可以不用homebrew安装, 阅读全文
摘要:
RDD提供了一个抽象的数据架构,我们不必担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理,不同RDD之间的转换操作形成依赖关系,可以实现管道化,从而避免了中间结果的存储,大大降低了数据复制、磁盘IO和序列化开销。 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每 阅读全文
摘要:
Spark运行架构包括: (1)集群资源管理器(Cluster Manager) (2)运行作业任务的工作节点(Worker Node) (3)每个应用的任务控制节点(Driver)和每个工作节点上负责具体任务的执行进程(Executor)。 其中,集群资源管理器可以是Spark自带的资源管理器,也 阅读全文