欢迎来到贱贱的博客

扩大
缩小

2018年4月3日

5 pyspark学习---Broadcast&Accumulator&sparkConf

摘要: 1 对于并行处理,Apache Spark使用共享变量。当驱动程序将任务发送给集群上的执行者时,集群中的每个节点上都有一个共享变量的副本,这样就可以用于执行任务了。 2 两种支持得类型 (1)Broadcast 广播变量保存所有节点数据备份。该变量缓存在所有机器上,而不是在有任务的机器上发送。下面的 阅读全文

posted @ 2018-04-03 10:45 L的存在 阅读(2693) 评论(0) 推荐(1) 编辑

4 pyspark学习---RDD

摘要: 开始新的东西,其实很多操作在第二篇的时候就有所介绍啦。在这里继续学习一遍加深一下印象。 1关于RDD (1) RDD Resilient Distributed Dataset,弹性分布式数据集。这些元素在多个节点上运行和操作,以便在集群上进行并行处理。 (2)RDD是弹性得。 比如map操作,可以 阅读全文

posted @ 2018-04-03 10:10 L的存在 阅读(1704) 评论(0) 推荐(0) 编辑

3 pyspark学习---sparkContext概述

摘要: 1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark。它依然可以通过导入Py4j进行RDDS等操作。 2 sparkContext (1)sparkContext是spark运用的入口点,当我们运行spark的时候,驱动启动同时上下文也开 阅读全文

posted @ 2018-04-03 09:48 L的存在 阅读(2194) 评论(0) 推荐(0) 编辑

2 pyspark学习----基本操作

摘要: 1 spark的python环境部署可以参照上面一篇哟。http://www.cnblogs.com/lanjianhappy/p/8705974.html 2 pyspark的基本操作。 加油! 阅读全文

posted @ 2018-04-03 09:12 L的存在 阅读(1049) 评论(0) 推荐(0) 编辑

1 python----pycharm本地部署spark

摘要: 下图相关工具连接 链接:https://pan.baidu.com/s/115XWf_Fc1yMiJytKJQXnFQ 密码:3jvr 好了,加油哟! 阅读全文

posted @ 2018-04-03 09:08 L的存在 阅读(504) 评论(0) 推荐(0) 编辑

导航