如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理 开启MapJoin参数设置 设置自动选 Read More
posted @ 2021-11-21 11:39 HANIEEE Views(268) Comments(0) Diggs(0) Edit
#!/usr/bin/env python3from HiveTask import HiveTaskimport osimport syssys.path.append(os.getenv('HIVE_TASK')) ht = HiveTask() data_day_str = sys.argv[ Read More
posted @ 2021-11-21 11:31 HANIEEE Views(184) Comments(0) Diggs(0) Edit
hive.exec.parallel可以控制一个sql中多个可并行执行的job的运行方式.当hive.exec.parallel为true的时候,同一个sql中可以并行执行的job会并发的执行. 而参数hive.exec.parallel.thread.number就是控制对于同一个sql来说同时可 Read More
posted @ 2021-11-21 11:27 HANIEEE Views(359) Comments(1) Diggs(0) Edit