随笔分类 - Parquet
摘要:一 对比 存储空间对比: 查询性能对比: 二 设计方案 将数据拆分为:历史数据(hdfs+parquet+snappy)+ 近期数据(kudu),可以兼具各种优点: 1)整体低于10%的磁盘占用; 2)更少的查询耗时; 3)近期数据实时更新; 4)近期数据可修改; 5)kudu集群重启时间降低90%
阅读全文
摘要:spark 2.1.1 spark里执行sql报错 insert overwrite table test_parquet_table select * from dummy 报错如下: org.apache.spark.SparkException: Task failed while writi
阅读全文
摘要:http://parquet.apache.org 层次结构: file -> row groups -> column chunks -> pages(data/index/dictionary) Motivation We created Parquet to make the advantag
阅读全文