摘要: Parquet列式存储 Apache Parquet是Hadoop生态系统中的列式存储格式,面向分析型业务,与数据处理框架、数据模型、编程语言无关。 ● 优势降低存储空间:按列存,能够更好地压缩数据,因为一列的数据一般都是同质的(homogenous)提高IO效率:扫描(遍历/scan)的时候,可以 阅读全文
posted @ 2016-11-24 17:23 Uncle_Nucky 阅读(4927) 评论(0) 推荐(1) 编辑