摘要:
优化的核心在于 处理大数据量 与 hive执行过程原理 1. 用where过滤分区,可以减小数据量 可以使用嵌套select查询,先用where过滤分区,再进行表连接,这对所有种类的表连接都是可以的。 2. 左半开连接 可以代替in,速度会比较快。 SEMI JOIN 3. map side JOI 阅读全文
摘要:
关于Hive编程指南学习问题集 1. Hive的外部分区表修改数据是否会改变文件?比如添加分区,比如,导入新数据 2. where 与 on Java处理原理是什么?这个有利于优化 阅读全文