2020 年 6月 8 日随笔档案 - muyue123

2020年6月8日

摘要： #spark.sql中的shuffle.partitions的个数，默认为200 spark.sql.shuffle.partitions=50 #存储和计算所占比例，默认为0.6spark.storage.memoryFraction=0.3 #拉取失败的最大重试次数，默认3次 #本地化等待的时长阅读全文

posted @ 2020-06-08 17:48 muyue123 阅读(164) 评论(0) 推荐(0) 编辑

行列变换的相关

摘要： PIVOT 用户将多行转换成列。如果需要转换特定的行，则将行的值做为列表参数传入。 from pyspark.sql import SparkSessionimport pyspark.sql.functions as Fspark = SparkSession.builder.master("lo 阅读全文

posted @ 2020-06-08 17:29 muyue123 阅读(147) 评论(0) 推荐(0) 编辑

pyspark 实现的wordcount

摘要： pyspark 实现的wordcount。 from pyspark.sql import SparkSession, DataFrame spark = SparkSession \ .builder \ .master("local[*]")\ .appName("PythonWordCount 阅读全文

posted @ 2020-06-08 16:30 muyue123 阅读(513) 评论(0) 推荐(0) 编辑

muyue123

公告