windows环境下单机运行pyspark
首先在windows系统中安装pyspark,具体过程可以参考以下两个地址
https://mp.weixin.qq.com/s/Bt6qrE3sGUSCm_BaA33C6A
https://edu.hellobi.com/course/282/play/lesson/6501
安装好之后,在cmd中输入pyspark,可以看到以下界面
接下来通过以下代码,实现第一个pyspark程序,该程序会统计文本文件CountLine.txt的行数(注意python版本最好是3.7以下,以免findspark包出现不兼容)
import os
import findspark
findspark.init()
from pyspark.sql import SparkSession
os.environ['JAVA_HOME'] = r"D:\install\jdk1.8.0-201"
spark = SparkSession.builder.appName("example").getOrCreate()
sc = spark.sparkContext
print(sc.master)
textFile = sc.textFile('CountLine.txt')
num_lines = textFile.count()
print('文本行数:', num_lines)
print('done!')