2019 年 8月 27 日随笔档案 - 北漂屌丝

2019年8月27日

摘要： Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销，尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次这个功能的缺点是，开启JVM重用将一直占用使用到的task插槽，以便进阅读全文

posted @ 2019-08-27 09:32 北漂屌丝阅读(2558) 评论(0) 推荐(0) 编辑

HIVE调优之严格模式

摘要：设置为严格模式后，可以禁止3种类型的查询带有分区的表的查询如果在一个分区表执行hive，除非where语句中包含分区字段过滤条件来显示数据范围，否则不允许执行。换句话说就是在严格模式下不允许用户扫描所有的分区，进行这个限制的原因是，通常分区表都拥有非常大的数据集，而且数据增加迅速。如果不进行分区阅读全文

posted @ 2019-08-27 09:25 北漂屌丝阅读(227) 评论(0) 推荐(0) 编辑

HIVE调优之并行执行

摘要： Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段，或者Hive执行过程中可能需要的其他阶段。默认情况下，Hive一次只会执行一个阶段。不过，某个特定的job可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可阅读全文

posted @ 2019-08-27 08:51 北漂屌丝阅读(698) 评论(0) 推荐(0) 编辑

HIVE调优之分桶

摘要：分桶规则对分桶字段值进行哈希，哈希值除以桶的个数求余，余数决定了该条记录在哪个桶中，也就是余数相同的在一个桶中分桶优点提高join查询效率: 假设表A和表B进行join，join的字段为id条件：两个表为大表两个表都为分桶表 A表的桶数是B表桶数的倍数或因子这样join查询时候，表A的每阅读全文

posted @ 2019-08-27 08:15 北漂屌丝阅读(873) 评论(0) 推荐(0) 编辑

beipiaodiaosi