2018年7月18日
摘要: 一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个 阅读全文
posted @ 2018-07-18 22:46 liangxb 阅读(766) 评论(0) 推荐(0) 编辑
摘要: 一、Parquet的组成 Parquet仅仅是一种存储格式,它是语言、平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎和计算框架都已适配,并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。 查询引擎: 阅读全文
posted @ 2018-07-18 21:29 liangxb 阅读(1680) 评论(0) 推荐(0) 编辑