PySpark

1. PySpark前言介绍

2. 基础准备

⭐构建PySpark执行环境入口对象：

⭐后续的代码都通过对象sc进行编写！

3. 数据输入

A. Python数据容器转RDD对象：

B. 读取文件转RDD对象：

RDD和列表，元组等类似，用于存储数据，是Spark用于数据计算的载体！数据输入可以理解为获得RDD对象！

4. 数据计算

A. map算子

B. flatMap算子

C. reduceByKey算子

KV型RDD：二元元组，元组里面只有两个元素！

⭐一个单词统计的小案例：

D. filter算子

E. distinct算子

F. sortBy算子

5. 数据输出

A. 输出为Python对象

(1) collect算子

(2) reduce算子

(3) take算子

(4) count算子

B. 输出到文件中

(1) saveAsTextFile算子

注意：需要配置Hadoop相关依赖！

有几个分区就写到几个文件中！

(2) 修改RDD分区为1个

posted @ 2023-07-31 19:44 Peg_Wu 阅读(10) 评论(0) 编辑收藏举报

刷新页面返回顶部