摘要: pyspark RDD中join算子实现代码分析 代码版本为 spark 2.2.0 1.join.py 这个代码单独作为一个文件在pyspark项目代码中,只有一个功能即实现join相关的几个方法 阅读全文
posted @ 2018-05-16 21:09 vv.past 阅读(1376) 评论(0) 推荐(0) 编辑
摘要: pyspark jvm端的scala代码PythonRDD 代码版本为 spark 2.2.0 1.PythonRDD.object 这个静态类是pyspark的一些基础入口 阅读全文
posted @ 2018-05-16 20:44 vv.past 阅读(703) 评论(0) 推荐(0) 编辑
摘要: pyspark jvm端的scala代码PythonRDD 代码版本为 spark 2.2.0 1.PythonRDD.class 这个rdd类型是python能接入spark的关键 2.PythonRunner.class 这个类是rdd内部执行计算时的实体计算类,并不是代码提交时那个启动py4j 阅读全文
posted @ 2018-05-16 16:57 vv.past 阅读(1843) 评论(0) 推荐(0) 编辑
摘要: 这里记录pyspark的执行逻辑图 代码版本为 spark 2.2.0 1.执行逻辑 这里简述一下代码调用流程 1. 用户通过spark submit提交python代码,spark submit检测到此次提交任务类型是python类型则会设置mainClass为PythonRunner 2. Py 阅读全文
posted @ 2018-05-16 15:47 vv.past 阅读(2130) 评论(0) 推荐(0) 编辑
摘要: pyspark rdd.py文件代码纪录 代码版本为 spark 2.2.0 1.RDD及常见算子 2.PipelinedRDD 3. RDD中join算子的实现 "join实现代码记录" 阅读全文
posted @ 2018-05-16 15:47 vv.past 阅读(2586) 评论(0) 推荐(0) 编辑
摘要: Spark RPC 使用说明 概述 Server端示例代码 Client端示例代码 object ZsparkRpcClient{ def main(args: Array[String]): Unit = { val host=Utils.localHostName() val port=2345 阅读全文
posted @ 2018-02-03 16:42 vv.past 阅读(188) 评论(0) 推荐(0) 编辑
摘要: fire spark fire spark是一个集成了spark 相关的一些工具集,提供用户构建一个标准的可管理的spark 项目 其中包含了spark streaming相关的一些依赖和封装,以及spark streaming kafka需要的相关工具 "详细介绍和使用示例" 阅读全文
posted @ 2018-02-03 11:41 vv.past 阅读(483) 评论(0) 推荐(0) 编辑
摘要: 记录spark streaming 中监听器StreamingListener的相关信息 概述 代码记录 示例代码 示例代码应用 阅读全文
posted @ 2018-01-31 16:23 vv.past 阅读(2521) 评论(0) 推荐(0) 编辑
摘要: 这里记录一下SparkListener一些常用的监听使用方式 概述 代码记录 示例代码 示例代码使用 阅读全文
posted @ 2018-01-31 16:02 vv.past 阅读(2380) 评论(0) 推荐(0) 编辑
摘要: ChildProcAppHandle 代码记录 概述 代码记录 阅读全文
posted @ 2018-01-31 12:32 vv.past 阅读(365) 评论(0) 推荐(0) 编辑