欢迎来到贱贱的博客

扩大
缩小

随笔分类 -  spark

spark学习之IDEA配置spark并wordcount提交集群
摘要:这篇文章包括以下内容 (1)IDEA中scala的安装 (2)hdfs简单的使用,没有写它的部署 (3) 使用scala编写简单的wordcount,输入文件和输出文件使用参数传递 (4)IDEA打包和提交方法 一 IDEA中scala的安装 (1) 下载IEDA 装jdk (2) 启动应用程序 选 阅读全文

posted @ 2018-10-23 09:54 L的存在 阅读(1816) 评论(0) 推荐(0) 编辑

spark学习之简介
摘要:1. Spark概述 1.1. 什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目 阅读全文

posted @ 2018-10-23 09:17 L的存在 阅读(219) 评论(0) 推荐(0) 编辑

5 pyspark学习---Broadcast&Accumulator&sparkConf
摘要:1 对于并行处理,Apache Spark使用共享变量。当驱动程序将任务发送给集群上的执行者时,集群中的每个节点上都有一个共享变量的副本,这样就可以用于执行任务了。 2 两种支持得类型 (1)Broadcast 广播变量保存所有节点数据备份。该变量缓存在所有机器上,而不是在有任务的机器上发送。下面的 阅读全文

posted @ 2018-04-03 10:45 L的存在 阅读(2714) 评论(0) 推荐(1) 编辑

4 pyspark学习---RDD
摘要:开始新的东西,其实很多操作在第二篇的时候就有所介绍啦。在这里继续学习一遍加深一下印象。 1关于RDD (1) RDD Resilient Distributed Dataset,弹性分布式数据集。这些元素在多个节点上运行和操作,以便在集群上进行并行处理。 (2)RDD是弹性得。 比如map操作,可以 阅读全文

posted @ 2018-04-03 10:10 L的存在 阅读(1706) 评论(0) 推荐(0) 编辑

3 pyspark学习---sparkContext概述
摘要:1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark。它依然可以通过导入Py4j进行RDDS等操作。 2 sparkContext (1)sparkContext是spark运用的入口点,当我们运行spark的时候,驱动启动同时上下文也开 阅读全文

posted @ 2018-04-03 09:48 L的存在 阅读(2212) 评论(0) 推荐(0) 编辑

2 pyspark学习----基本操作
摘要:1 spark的python环境部署可以参照上面一篇哟。http://www.cnblogs.com/lanjianhappy/p/8705974.html 2 pyspark的基本操作。 加油! 阅读全文

posted @ 2018-04-03 09:12 L的存在 阅读(1049) 评论(0) 推荐(0) 编辑

1 python----pycharm本地部署spark
摘要:下图相关工具连接 链接:https://pan.baidu.com/s/115XWf_Fc1yMiJytKJQXnFQ 密码:3jvr 好了,加油哟! 阅读全文

posted @ 2018-04-03 09:08 L的存在 阅读(505) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示