2018 年 4月 3 日随笔档案 - L的存在

5 pyspark学习---Broadcast&Accumulator&sparkConf

摘要： 1 对于并行处理，Apache Spark使用共享变量。当驱动程序将任务发送给集群上的执行者时，集群中的每个节点上都有一个共享变量的副本，这样就可以用于执行任务了。 2 两种支持得类型 (1)Broadcast 广播变量保存所有节点数据备份。该变量缓存在所有机器上，而不是在有任务的机器上发送。下面的阅读全文

posted @ 2018-04-03 10:45 L的存在阅读(2693) 评论(0) 推荐(1) 编辑

4 pyspark学习---RDD

摘要：开始新的东西，其实很多操作在第二篇的时候就有所介绍啦。在这里继续学习一遍加深一下印象。 1关于RDD (1) RDD Resilient Distributed Dataset，弹性分布式数据集。这些元素在多个节点上运行和操作，以便在集群上进行并行处理。 (2)RDD是弹性得。比如map操作，可以阅读全文

posted @ 2018-04-03 10:10 L的存在阅读(1704) 评论(0) 推荐(0) 编辑

3 pyspark学习---sparkContext概述

摘要： 1 Tutorial Spark本身是由scala语言编写，为了支持py对spark的支持呢就出现了pyspark。它依然可以通过导入Py4j进行RDDS等操作。 2 sparkContext (1)sparkContext是spark运用的入口点，当我们运行spark的时候，驱动启动同时上下文也开阅读全文

posted @ 2018-04-03 09:48 L的存在阅读(2194) 评论(0) 推荐(0) 编辑

2 pyspark学习----基本操作

摘要： 1 spark的python环境部署可以参照上面一篇哟。http://www.cnblogs.com/lanjianhappy/p/8705974.html 2 pyspark的基本操作。加油！阅读全文

posted @ 2018-04-03 09:12 L的存在阅读(1049) 评论(0) 推荐(0) 编辑

1 python----pycharm本地部署spark

摘要：下图相关工具连接链接：https://pan.baidu.com/s/115XWf_Fc1yMiJytKJQXnFQ 密码：3jvr 好了，加油哟！阅读全文

posted @ 2018-04-03 09:08 L的存在阅读(504) 评论(0) 推荐(0) 编辑

L的存在

5 pyspark学习---Broadcast&Accumulator&sparkConf

4 pyspark学习---RDD

3 pyspark学习---sparkContext概述

2 pyspark学习----基本操作

1 python----pycharm本地部署spark

导航

公告