parquet 合并元数据
摘要:合并元数据:两个数据集,有着一部分相同的列,将他们合并成一个数据集时merge的过程。 合并的规则:相同的列,在新的数据集中,是通用的列, 各自不同的列,也作为新的数据集的列。 Spark将数据写入到HDFS中的parquet为例: 准备连个json文件(StudentInfo1.json,Stud
阅读全文
posted @ 2016-03-29 10:47
posted @ 2016-03-29 10:47
posted @ 2016-03-28 09:10
posted @ 2016-03-21 21:23
posted @ 2016-03-21 20:37