DataFrame的代码构建 - 读取外部数据

 

 

 

 

parquet: 是Spark中常用的一种列式存储文件格式
和Hive中的ORC差不多, 他俩都是列存储格式
parquet对比普通的文本文件的区别:
●parquet 内置schema (列名\列类型\是否为空)
●存储是以列作为存储格式
●存储是序列化存储在文件中的(有压缩属性体积小
posted @ 2024-01-24 18:09  阿飞藏泪  阅读(4)  评论(0编辑  收藏  举报
1 2 3
4