文章分类 - Parquet
摘要:Columnar storage 像文本、关系型数据库的表这种数据存储方式都是基于row的,这意味着所有的字段都从第一行开始写,然后写第二行,以此类推。诸如JSON、XML、Avro这种 row storage数据序列化存储格式也是基于行存储的。 而列存储的设计,数据存储首先按列存储,然后按行存储。
阅读全文
摘要:write and read MessageType schema = MessageTypeParser.parseMessageType("message Pair {\n" + " required binary left (UTF8);\n" + " required binary righ
阅读全文
摘要:转自:http://www.ibm.com/developerworks/cn/analytics/blog/ba-parquet-for-spark-sql/index.html 列式存储布局(比如 Parquet)可以加速查询,因为它只检查所有需要的列并对它们的值执行计算,因此只读取一个数据文件
阅读全文