今日学习了DataFrame的代码构建--读取外部数据
读取数据源包括text,csv,json,parquet四种数据源
schema = StructType().add("data",StringType(),nullable=True)
df = spark.read.format("text").\
schema(schema=schema).\
load("../data/sql/people.txt")
df = spark.read.format("json").\
load("../data/sql/people.json")
df = spark.read.format("csv").\
option("sep", ";").\
option("header", "True").\
option("encoding", "utf-8").\
schema("name STRING, age INT, job STRING").\
load("../data/sql/people.csv")
df = spark.read.format("parquet").\
load("../data/sql/users.parquet")
还学习了DSL的风格语法操作
DataFrame支持两种风格进行编程,分别是:
.DSL风格
.SQL风格
DSL语法风格
DSL称之为︰领域特定语言。其实就是指DataFrame的特有API
DSL风格意思就是以调用API的方式来处理Data比如:df.where().limit()