今日安装了PySpark库以及学习了如何在Windows系统中通过SSH远程连接Linux系统使用Python语言来开发Spark程序
什么是PySpark
 
我们前面使用过bin/pyspark 程序, 要注意, 这个只是一个应用程序, 提供一个Python解释器执行环境来运行Spark任务我们现在说的PySpark, 指的是Python的运行类库, 是可以在Python代码中:import pyspark
PySpark 是Spark官方提供的一个Python类库, 内置了完全的Spark API, 可以通过PySpark类库来编写Spark应用程序,并将其提交到Spark集群中运行.

 

Python语言开发Spark程序步骤?
主要是获取SparkContext对象,基于SparkContext对象作为执行环境入口,下图是WordCount案例

 

 

如何提交Spark应用?
 
将程序代码上传到服务器上, 通过spark-submit客户端工具进行提交