随笔分类 - parquet
摘要:parquet是列式存储格式,官方文档 https://parquet.apache.org/documentation/latest/ 一个Parquet文件是由一个header以及一个或多个block块组成,以一个footer结尾。 header中只包含一个4个字节的数字PAR1用来识别整个Pa
阅读全文
摘要:1.引入依赖 <!--parquet--> <dependency> <groupId>org.apache.parquet</groupId> <artifactId>parquet-avro</artifactId> <version>1.10.0</version> </dependency>
阅读全文
摘要:使用parquet-tools的方法有2种 1.在安装了CDH的机器上,会自动有parquet-tools命令 lintong@master:/opt/cloudera/parcels/CDH/bin$ ls| grep parquet-tools parquet-tools lintong@mas
阅读全文