02 2017 档案

摘要:RDD及其特点 1)RDD(Resillient Distributed Dataset)弹性分布式数据集,是spark提供的核心抽象。它代表一个不可变、可分区、里面的元素可并行计算的集合 2)RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上 阅读全文
posted @ 2017-02-11 13:47 邬家栋 阅读(605) 评论(0) 推荐(0) 编辑
摘要:spark采用的是主从式的架构,主节点叫master,从节点是worker Driver 我们编写的spark就在Driver上,由driver进程执行。 Driver是spark集群的节点之一,或你提交spark程序的机器 Master master是集群的资源管理者和调度者,类似yarn里面的R 阅读全文
posted @ 2017-02-11 13:45 邬家栋 阅读(1244) 评论(0) 推荐(0) 编辑
摘要:wordcount程序 文件wordcount.txt 程序示例 运行结果 阅读全文
posted @ 2017-02-11 13:40 邬家栋 阅读(930) 评论(0) 推荐(0) 编辑
摘要:第一步:启动IntelliJ IDEA,选择Create New Project,然后选择Scala,点击下一步,输入项目名称wujiadong.spark继续下一步 第二步:导入spark assembly 1.5.1 hadoop2.6.0.jar包 File——Project Structur 阅读全文
posted @ 2017-02-02 20:39 邬家栋 阅读(9731) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示