SparkSQL指南-快速开始(Python版)——(一)
快速开始
创建环境#
Spark程序主要分为三个阶段:
- 创建环境
- 数据操作
- 关闭环境(在Streaming程序中为执行环境)
下面是批处理的Spark SQL API的创建环境的类:SparkSession,其目的是为了创建基本的Spark SQL的环境。
from pyspark.sql import SparkSession
spark=SparkSession.builder\
.appName("Spark SQL basic test")\
.getOrCreate()
注意:一定要有“\”
其中还可以指定操作,比如连接Mongodb的操作,支持Hive的操作,具体的写法类似于如下:
from pyspark.sql import SparkSession
if __name__ == '__main__':
spark=SparkSession.builder\
.appName("Spark SQL basic test")\
.config("spark.some.config.option", "some-value")\
.getOrCreate()
数据操作#
创建DataFrames#
创建DataFrames其实和python中的Datarame类似,也是一种表的表达方式。在Saprk中创建DataFrame的来源有很多,很多中API都是通过RDD来创建的,或者读取本地文件;但是在实际的任务中最常见的还是从数据库(Hive,Mongodb,MySQL)中创建DataFrame。由于这里是快速上手所以,该例子只使用read.json()
文件内容为:
{"name":"Kone"}
{"name":"Alices", "age":30}
{"name":"Bob", "age":19}
代码:
from pyspark.sql import SparkSession
if __name__ == '__main__':
spark=SparkSession.builder\
.appName("Spark SQL basic test")\
.config("spark.some.config.option", "some-value")\
.getOrCreate()
df=spark.read.json("your json file path")
df.show()
输出为:
+----+------+
| age| name|
+----+------+
|null| Kone|
| 30|Alices|
| 19| Bob|
+----+------+
在DataFrames上的操作#
上文讲过DataFrame相当于一个表,则对表有很多结构化的操作,那么其实MySQL的相关操作都可在Spark DataFrame上实现。下面是几种常见的操作:
- 访问数据
在访问数据中存在两种访问:属性(df.age)和索引(df["age"])。在Spark中更加建议后一种访问方式:
df=spark.read.json(jsonPath)
df.select(df.age).show() # 使用属性来访问数据
df.select(df["age"]).show() # 使用索引来访问数据
df.select("name").show() # 使用select来访问数据
输出:
+----+
| age|
+----+
|null|
| 30|
| 19|
+----+
+----+
| age|
+----+
|null|
| 30|
| 19|
+----+
+------+
| name|
+------+
| Kone|
|Alices|
| Bob|
+------+
- 输出DataFrame的结构
df.printSchema()
输出:
root
|-- age: long (nullable = true)
|-- name: string (nullable = true)
- 对DataFrame的一列进行操作
df.select(df["name"], df["age"]+1).show()
输出:
+------+---------+
| name|(age + 1)|
+------+---------+
| Kone| null|
|Alices| 31|
| Bob| 20|
+------+---------+
- 对表进行筛选
下面筛选出name的以“K”开头的字符串。
df.filter(df["name"].startswith("K")).show()
输出:
+----+----+
| age|name|
+----+----+
|null|Kone|
+----+----+
- 聚集操作
原数据Json文件为:
{"name":"Kone"}
{"name":"Alices", "age":30}
{"name":"Bob", "age":19}
{"name":"Kven", "age":19}
{"name":"Dven", "age":18}
代码为:
df.groupBy(df["age"]).count().show()
输出:
+----+-----+
| age|count|
+----+-----+
| 19| 2|
|null| 1|
| 18| 1|
| 30| 1|
+----+-----+
使用反射推断模式#
Spark SQL可以将Row对象的RDD转化为DataFrame,从而推断数据类型。行是通过将键值对列表作为kwargs传递给Row类来构造。
作者:ALINGMAOMAO
出处:https://www.cnblogs.com/ALINGMAOMAO/p/17118157.html
版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
· SQL Server 2025 AI相关能力初探