随笔分类 - Hplsql

介绍开源产品hplsql原理、性能调优和问题解决

摘要：一、问题描述客户现场报错数据块已经到达hadoop设置的最大限制：File has reached the limit on maximum number of blocks (dfs.namenode.fs-limits.max-blocks-per-file): 10000 >= 10000。阅读全文

posted @ 2021-12-29 10:26 虎啸千峰阅读(694) 评论(0) 推荐(0) 编辑

Hive on Spark 和Hive on mr执行结果不一致原因剖析

摘要：一、Hive 执行引擎概述目前hive执行引擎支持三种，包括mr、spark和Tz；mr是hive最早支持的数据类型，执行速度最慢，但是性能上也是最为稳定的；spark和Tz是后续支持的执行引擎，也是将hive的SQL语句转换为spark可以识别的sparksql语句进行执行。二、当有空表出现时阅读全文

posted @ 2021-03-05 10:11 虎啸千峰阅读(2410) 评论(0) 推荐(0) 编辑

Hive on Spark 参数调优

摘要：前言 Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎，在HIVE-7292提出。Hive on Spark的效率比on MR要高不少，但是也需要合理调整参数才能最大化性能，本文简单列举一些调优项。为了符合实际情况，Spark也采用on YARN部署方式来阅读全文

posted @ 2021-01-13 16:32 虎啸千峰阅读(1876) 评论(0) 推荐(0) 编辑