摘要: 优化的核心在于 处理大数据量 与 hive执行过程原理 1. 用where过滤分区,可以减小数据量 可以使用嵌套select查询,先用where过滤分区,再进行表连接,这对所有种类的表连接都是可以的。 2. 左半开连接 可以代替in,速度会比较快。 SEMI JOIN 3. map side JOI 阅读全文
posted @ 2016-05-12 11:41 书影悦黄昏 阅读(970) 评论(0) 推荐(0) 编辑
摘要: 关于Hive编程指南学习问题集 1. Hive的外部分区表修改数据是否会改变文件?比如添加分区,比如,导入新数据 2. where 与 on Java处理原理是什么?这个有利于优化 阅读全文
posted @ 2016-05-12 10:48 书影悦黄昏 阅读(128) 评论(0) 推荐(0) 编辑