2016 年 5月 12 日随笔档案 - 书影悦黄昏

2016年5月12日

摘要：优化的核心在于处理大数据量与 hive执行过程原理 1. 用where过滤分区，可以减小数据量可以使用嵌套select查询，先用where过滤分区，再进行表连接，这对所有种类的表连接都是可以的。 2. 左半开连接可以代替in,速度会比较快。 SEMI JOIN 3. map side JOI 阅读全文

posted @ 2016-05-12 11:41 书影悦黄昏阅读(975) 评论(0) 推荐(0) 编辑

关于Hive编程指南学习问题集

摘要：关于Hive编程指南学习问题集 1. Hive的外部分区表修改数据是否会改变文件？比如添加分区，比如，导入新数据 2. where 与 on Java处理原理是什么？这个有利于优化阅读全文

posted @ 2016-05-12 10:48 书影悦黄昏阅读(129) 评论(0) 推荐(0) 编辑

公告