PySpark

1. PySpark前言介绍


 

 

2. 基础准备


构建PySpark执行环境入口对象

后续的代码都通过对象sc进行编写!

 

 

3. 数据输入


A. Python数据容器转RDD对象:

B. 读取文件转RDD对象:

RDD和列表,元组等类似,用于存储数据Spark用于数据计算的载体!数据输入可以理解为获得RDD对象!

 

 

4. 数据计算


A. map算子

B. flatMap算子

C. reduceByKey算子

KVRDD:二元元组,元组里面只有两个元素!

⭐一个单词统计的小案例:

D. filter算子

E. distinct算子

F. sortBy算子

 

 

5. 数据输出


A. 输出为Python对象

(1) collect算子

(2) reduce算子

(3) take算子

(4) count算子

B. 输出到文件中

(1) saveAsTextFile算子

注意:需要配置Hadoop相关依赖!

有几个分区就写到几个文件中!

(2) 修改RDD分区为1

posted @ 2023-07-31 19:44  Peg_Wu  阅读(10)  评论(0编辑  收藏  举报