摘要: 创建RDD: 1:使用程序中的集合创建RDD,主要用于进行测试,可以在实际部署到集群运行之前,自己使用集合构造测试数据,来测试后面的spark应用流程。 2:使用本地文件创建RDD,主要用于临时性地处理一些储存了大量数据的文件 3:使用HDFS文件创建RDD,应该是最常用的生产环境处理方式,主要可以 阅读全文
posted @ 2017-06-12 15:42 yesyeszero 阅读(191) 评论(0) 推荐(0) 编辑
摘要: Spark核心组件 1、Driver 2、Master 3、Worker 4、Executor 4、Task 1:Driver程序启动后,会做一些初始化的操作,在这个过程中,就会发送请求到Master上,进行Spark应用程序的注册,说白了,就是让Master知道,有一个新的Spark程序要运行。 阅读全文
posted @ 2017-06-12 10:51 yesyeszero 阅读(217) 评论(0) 推荐(0) 编辑