摘要:
Hive 导入 parquet 格式数据 Parquet 格式文件,查看Schema Parquet 之mapreduce Hive 导入 parquet 格式数据 阅读全文
摘要:
parquet列式文件实战 parquet code demo http://www.programcreek.com/java-api-examples/index.php?source_dir=hiped2-master/src/main/java/hip/ch3/parquet/Example 阅读全文
摘要:
大数据架构 大数据架构:搭建CDH5.5.1分布式集群环境 Hive 大数据:Hive常用参数调优 Spark Spark基本架构及原理 SparkContext原理解析 Spark RDD、DataFrame原理及操作详解 Spark On Yarn的两种模式yarn-cluster和yarn-c 阅读全文
摘要:
Spark 学习: spark 原理简述与 shuffle 过程介绍 阅读全文
摘要:
Spark基本架构及原理 Spark(一): 基本架构及原理 Hadoop 和 Spark 的关系 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是: 因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运 阅读全文
摘要:
Parquet文件结构笔记 一个Parquet文件是 由一个header以及一个或多个block块组成,以一个footer结尾。 header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。 文件中所有的metadata都存在于footer中。 footer中的metadata 阅读全文
摘要:
原文 Parquet 列式存储格式 面向分析型业务的列式存储格式 由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目 列式存储 列式存储和行式存储相比有哪些优势呢? 当时 Twitter 的日增数据量达到压缩之后的 1 阅读全文
摘要:
阅读全文
摘要:
阅读全文
摘要:
阅读全文