2015年3月10日

spark处理jsonFile

摘要: 按照spark的说法,这里的jsonFile是特殊的文件:Note that the file that is offered as jsonFile is not a typical JSON file. Each line must contain a separate, sel... 阅读全文

posted @ 2015-03-10 13:22 白乔 阅读(1056) 评论(0) 推荐(0) 编辑

Dremel made simple with Parquet

摘要: http://lastorder.me/tag/parquet.htmlhttps://blog.twitter.com/2013/dremel-made-simple-with-parquet对于优化『关系型数据库上的分析任务』,列式存储(Columnar Storage)是个比较流行的技术. 这... 阅读全文

posted @ 2015-03-10 09:37 白乔 阅读(237) 评论(0) 推荐(0) 编辑

从NSM到Parquet:存储结构的衍化

摘要: http://blog.csdn.net/dc_726/article/details/41777661为了优化MapReduce及MR之前的各种工具的性能,在Hadoop内建的数据存储格式外,又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile,以及配合Impala实现出Google ... 阅读全文

posted @ 2015-03-10 09:30 白乔 阅读(372) 评论(0) 推荐(0) 编辑

导航