摘要: pyspark RDD中join算子实现代码分析 代码版本为 spark 2.2.0 1.join.py 这个代码单独作为一个文件在pyspark项目代码中,只有一个功能即实现join相关的几个方法 阅读全文
posted @ 2018-05-16 21:09 vv.past 阅读(1373) 评论(0) 推荐(0) 编辑
摘要: pyspark jvm端的scala代码PythonRDD 代码版本为 spark 2.2.0 1.PythonRDD.object 这个静态类是pyspark的一些基础入口 阅读全文
posted @ 2018-05-16 20:44 vv.past 阅读(690) 评论(0) 推荐(0) 编辑
摘要: pyspark jvm端的scala代码PythonRDD 代码版本为 spark 2.2.0 1.PythonRDD.class 这个rdd类型是python能接入spark的关键 2.PythonRunner.class 这个类是rdd内部执行计算时的实体计算类,并不是代码提交时那个启动py4j 阅读全文
posted @ 2018-05-16 16:57 vv.past 阅读(1821) 评论(0) 推荐(0) 编辑
摘要: 这里记录pyspark的执行逻辑图 代码版本为 spark 2.2.0 1.执行逻辑 这里简述一下代码调用流程 1. 用户通过spark submit提交python代码,spark submit检测到此次提交任务类型是python类型则会设置mainClass为PythonRunner 2. Py 阅读全文
posted @ 2018-05-16 15:47 vv.past 阅读(2116) 评论(0) 推荐(0) 编辑
摘要: pyspark rdd.py文件代码纪录 代码版本为 spark 2.2.0 1.RDD及常见算子 2.PipelinedRDD 3. RDD中join算子的实现 "join实现代码记录" 阅读全文
posted @ 2018-05-16 15:47 vv.past 阅读(2578) 评论(0) 推荐(0) 编辑