摘要:
Parquet是面向分析型业务得列式存储格式 编程方式加载数据 代码示例 ` 运行结果 自动分区 合并元数据 1)读取parquet文件时,将数据源的选项mergeSchema,设置为true 2)使用SQLContext.setConf()方法,将spark.sql.parquet.mergeSc 阅读全文
摘要:
load操作:主要用于加载数据,创建出DataFrame save操作:主要用于将DataFrame中的数据保存到文件中 代码示例(默认为parquet数据源类型) 提交集群运行 运行后查看是否保存成功 手动指定数据源类型(进行格式转换很方便) 默认情况下不指定数据源类型的话就是parquet类型 阅读全文