pyspark创建RDD数据、RDD转DataFrame以及保存
pyspark创建RDD的方式主要有两种,一种是通过spark.sparkContext.textFile 或者 sparkContext.textFile读取生成RDD数据;另一种是通过spark.sparkContext.parallelize创建RDD数据。
1. 首先导入库和进行环境配置(使用的是linux下的pycharm)
import os from pyspark import SparkContext, SparkConf from pyspark.sql.session import SparkSession from pyspark.sql.types import StructField, StructType, StringType from pyspark.sql import HiveContext os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定 spark = SparkSession.builder.master("local").appName("SparkOnHive").enableHiveSupport().getOrCreate()
2. 创建RDD数据,这里采用的是第二种方式
data = [('Alex','male',3),('Nancy','female',6),['Jack','male',9]] # mixed,可以元组、列表或者混合,子元素的长度也不一定要一样 rdd_ = spark.sparkContext.parallelize(data) print(type(rdd_)) # support: list\tuple\dict or mixed them print(rdd_.take(2)) rdd_collect = rdd_.collect() print(rdd_collect) print(rdd_collect[1])
如下,混合也是可行的,但是长度不一致时,就不能直接转成DataFrame了,否则会出现: ValueError: Length of object (2) does not match with length of fields (3)
data = [('Alex','male',3),['Nancy',6],{'sport':'tennis'}] # 混合,长度也不一致,相当于RDD把每一行当做一整个元素了 rdd_ = spark.sparkContext.parallelize(data) print(type(rdd_)) # support: list\tuple\dict or mixed them print(rdd_.take(2)) rdd_collect = rdd_.collect() print(rdd_collect) print(rdd_collect[1])
3. 如果RDD要直接转成DataFrame,使用spark.createDataFrame,则子元素长度要一致,例如:
data = [('Alex','male',3),('Nancy','female',6),['Jack','male',9]] # mixed rdd_ = spark.sparkContext.parallelize(data) # schema schema = StructType([ # true代表不为空 StructField("name", StringType(), True), StructField("gender", StringType(), True), StructField("num", StringType(), True) ]) df = spark.createDataFrame(rdd_, schema=schema) # working when the struct of data is same. print(df.show())
其中,DataFrame和hive table的相互转换可见:https://www.cnblogs.com/qi-yuan-008/p/12494024.html
4. RDD数据的保存:saveAsTextFile,如下 repartition 表示使用一个分区,后面加上路径即可
rdd_.repartition(1).saveAsTextFile(r'some_path')
5. DataFrame数据的保存:通过路径进行设置
# save file_path = r'/home/Felix/pycharm_projects/test/testfile.csv' df.write.csv(path=file_path, header=True, sep=',', mode='overwrite') file_path_2 = r'/home/Felix/pycharm_projects/test/testfile.parquet' df.write.parquet(path=file_path_2, mode='overwrite')
6. 读取以上保存的csv和parquet文件
dt1 = spark.read.csv(r'/home/Felix/pycharm_projects/test/testfile.csv', header=True) print(dt1.show()) print('11111111') # dt1 = spark.read.parquet(r'/home/Felix/pycharm_projects/test/testfile.parquet') print(dt1.show()) print('22222222')
##