随笔分类 -  Parquet

摘要:一 对比 存储空间对比: 查询性能对比: 二 设计方案 将数据拆分为:历史数据(hdfs+parquet+snappy)+ 近期数据(kudu),可以兼具各种优点: 1)整体低于10%的磁盘占用; 2)更少的查询耗时; 3)近期数据实时更新; 4)近期数据可修改; 5)kudu集群重启时间降低90% 阅读全文
posted @ 2019-05-27 17:45 匠人先生 阅读(1809) 评论(0) 推荐(0) 编辑
摘要:spark 2.1.1 spark里执行sql报错 insert overwrite table test_parquet_table select * from dummy 报错如下: org.apache.spark.SparkException: Task failed while writi 阅读全文
posted @ 2018-12-18 15:08 匠人先生 阅读(4848) 评论(1) 推荐(3) 编辑
摘要:http://parquet.apache.org 层次结构: file -> row groups -> column chunks -> pages(data/index/dictionary) Motivation We created Parquet to make the advantag 阅读全文
posted @ 2018-11-08 17:05 匠人先生 阅读(1043) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示