开始pyspark------------jupyter notebook 读取CSV文件
1 开始pyspark
1 查看版本信息¶
In [1]:
import sys
print(sys.version_info)
sys.version_info(major=3, minor=11, micro=5, releaselevel='final', serial=0)
In [2]:
import os
print("The value of SPARK_HOME is:", os.environ.get("SPARK_HOME"))
The value of SPARK_HOME is: F:\anaconda\Lib\site-packages\pyspark
3 练习sparksql¶
3.1 加载模块¶
In [3]:
#导入pyspark模块
import pyspark
In [4]:
#从pyspark.sql模块中导入SparkSeesion
from pyspark.sql import SparkSession
In [5]:
spark=SparkSession.builder.appName('practise').getOrCreate()
In [6]:
spark
Out[6]:
SparkSession - in-memory
忽略¶
import pandas as pd pd.read_csv('test1.csv')
忽略¶
pdf=pd.read_csv('test1.csv')
3.2 用SparkSession读取数据¶
In [7]:
#读取csv文件(带表头)并赋值给变量sdf(此时类似于1个数据集或者是数据库里的表,实际并未加载数据到内存,只是一个DAG的某个stop)
sdf=spark.read.options(header='True').csv('test1.csv')
In [8]:
#展示csv文件到stdout
sdf.show()
+--------+---+ | name|age| +--------+---+ |zhangsan| 18| | fasad| 19| | dsa| 20| | fss| 21| | fsa| 22| | 李四| 21| | 王五| 22| +--------+---+
In [9]:
#选择csv文件中姓名并展示到stdout.(类似于sql的中选择sdf表的name列)
sdf.select("name").show()
+--------+ | name| +--------+ |zhangsan| | fasad| | dsa| | fss| | fsa| | 李四| | 王五| +--------+
In [11]:
#pandas的命令没有sparksql那么好理解。(学了sql基础的人觉得难理解)
#pdf[["name"]].head(10)
3.3 查看类型:SparkSession里的数据默认为dataframe,不是RDD¶
In [12]:
type(sdf)
Out[12]:
pyspark.sql.dataframe.DataFrame
IT之界浩瀚无边
只有持之恒心方可打开一窗
偷窥此中奥秘之一二
取之受益,亦珍而视之
学之留香,方不失风范
共勉 共进