Parquet

 Parquet是列式存储格式的一种文件类型,列式存储有以下的核心优势:
 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量
压缩编码可以降低磁盘存储空间,由于同一列的数据类型是一样的,可以使用更搞笑的压缩编码(例如Run Length Encoding和Delta Encoding)进一步几月存储空间
只读取需要的列,支持向量运算,能够获取更好的扫描性能 
posted @ 2017-08-30 11:28  牵牛花  阅读(409)  评论(0编辑  收藏  举报