pyspark使用-dataframe操作

一、读取csv文件

1.用pandas读取

import pandas as pd
from pyspark.sql import SparkSession
spark=SparkSession.builder.appName("test").getOrCreate()
f=pd.read_csv("filePath")
df=spark.createDataFrame(f)

但是pandas和spark数据转换的时候速度很慢，所以不建议这么做

2.直接读取

spark.read.format("csv").options(header="True",sep=",",encoding="utf-8",inferschema='true').load("path")

posted @ 2018-09-19 20:46 stAr_1 阅读(1171) 评论(0) 收藏举报

刷新页面返回顶部

stAr_1

pyspark使用-dataframe操作

公告