随笔分类 -  Hplsql

介绍开源产品hplsql原理、性能调优和问题解决
摘要:一、问题描述 客户现场报错数据块已经到达hadoop设置的最大限制:File has reached the limit on maximum number of blocks (dfs.namenode.fs-limits.max-blocks-per-file): 10000 >= 10000。 阅读全文
posted @ 2021-12-29 10:26 虎啸千峰 阅读(694) 评论(0) 推荐(0) 编辑
摘要:一、Hive 执行引擎概述 目前hive执行引擎支持三种,包括mr、spark和Tz;mr是hive最早支持的数据类型,执行速度最慢,但是性能上也是最为稳定的;spark和Tz是后续支持的执行引擎,也是将hive的SQL语句转换为spark可以识别的sparksql语句进行执行。 二、当有空表出现时 阅读全文
posted @ 2021-03-05 10:11 虎啸千峰 阅读(2410) 评论(0) 推荐(0) 编辑
摘要:前言 Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎,在HIVE-7292提出。Hive on Spark的效率比on MR要高不少,但是也需要合理调整参数才能最大化性能,本文简单列举一些调优项。为了符合实际情况,Spark也采用on YARN部署方式来 阅读全文
posted @ 2021-01-13 16:32 虎啸千峰 阅读(1876) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示