随笔分类 - hive
摘要:一、表设计 合理分表 合理设计表分区,静态分区、动态分区 二、扫描相关 1、谓词下推(Predicate Push Down) 2、列裁剪(Column Pruning) 在读数据的时候,只关心感兴趣的列,而忽略其他列 对于查询:select a,b from src where e < 10 其中
阅读全文
摘要:通过Parser将HiveQL转换成AST,通过Semantic Analyzer将AST转换为QB,通过Logical Plan Generator将QB转换成Operator Tree,通过Logical Optimizer对Operator Tree进行优化,通过Physical Plan G
阅读全文
摘要:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce、Tez任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分
阅读全文