spark - 随笔分类 - L的存在

spark学习之IDEA配置spark并wordcount提交集群

摘要：这篇文章包括以下内容 (1)IDEA中scala的安装 (2)hdfs简单的使用，没有写它的部署 (3) 使用scala编写简单的wordcount，输入文件和输出文件使用参数传递 (4)IDEA打包和提交方法一 IDEA中scala的安装 (1) 下载IEDA 装jdk (2) 启动应用程序选阅读全文

posted @ 2018-10-23 09:54 L的存在阅读(1816) 评论(0) 推荐(0) 编辑

spark学习之简介

摘要：1. Spark概述 1.1. 什么是Spark（官网：http://spark.apache.org） Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目阅读全文

posted @ 2018-10-23 09:17 L的存在阅读(219) 评论(0) 推荐(0) 编辑

5 pyspark学习---Broadcast&Accumulator&sparkConf

摘要：1 对于并行处理，Apache Spark使用共享变量。当驱动程序将任务发送给集群上的执行者时，集群中的每个节点上都有一个共享变量的副本，这样就可以用于执行任务了。 2 两种支持得类型 (1)Broadcast 广播变量保存所有节点数据备份。该变量缓存在所有机器上，而不是在有任务的机器上发送。下面的阅读全文

posted @ 2018-04-03 10:45 L的存在阅读(2714) 评论(0) 推荐(1) 编辑

4 pyspark学习---RDD

摘要：开始新的东西，其实很多操作在第二篇的时候就有所介绍啦。在这里继续学习一遍加深一下印象。 1关于RDD (1) RDD Resilient Distributed Dataset，弹性分布式数据集。这些元素在多个节点上运行和操作，以便在集群上进行并行处理。 (2)RDD是弹性得。比如map操作，可以阅读全文

posted @ 2018-04-03 10:10 L的存在阅读(1706) 评论(0) 推荐(0) 编辑

3 pyspark学习---sparkContext概述

摘要：1 Tutorial Spark本身是由scala语言编写，为了支持py对spark的支持呢就出现了pyspark。它依然可以通过导入Py4j进行RDDS等操作。 2 sparkContext (1)sparkContext是spark运用的入口点，当我们运行spark的时候，驱动启动同时上下文也开阅读全文

posted @ 2018-04-03 09:48 L的存在阅读(2212) 评论(0) 推荐(0) 编辑

2 pyspark学习----基本操作

摘要：1 spark的python环境部署可以参照上面一篇哟。http://www.cnblogs.com/lanjianhappy/p/8705974.html 2 pyspark的基本操作。加油！阅读全文

posted @ 2018-04-03 09:12 L的存在阅读(1049) 评论(0) 推荐(0) 编辑

1 python----pycharm本地部署spark

摘要：下图相关工具连接链接：https://pan.baidu.com/s/115XWf_Fc1yMiJytKJQXnFQ 密码：3jvr 好了，加油哟！阅读全文

posted @ 2018-04-03 09:08 L的存在阅读(505) 评论(0) 推荐(0) 编辑

L的存在

随笔分类 - spark

spark学习之IDEA配置spark并wordcount提交集群

spark学习之简介

5 pyspark学习---Broadcast&Accumulator&sparkConf

4 pyspark学习---RDD

3 pyspark学习---sparkContext概述

2 pyspark学习----基本操作

1 python----pycharm本地部署spark

导航

公告

最新随笔

积分与排名

随笔分类 (369)

随笔档案 (369)

阅读排行榜