随笔分类 -  Hive

摘要:Hue跑hive sql时报错如下 java.lang.IllegalStateException: Connection to remote Spark driver was lost 查看yarn报错日志如下 Container [pid=41355,containerID=container_ 阅读全文
posted @ 2022-03-17 15:19 民宿 阅读(428) 评论(0) 推荐(0) 编辑
摘要:1.场景 如果某个key下记录数远超其他key,在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。 SQL如下:查询每个appid打开的次数,需要排除掉作弊的imei。 SELECT appid, count(*) FROM ( SELECT md5imei 阅读全文
posted @ 2021-11-23 16:43 民宿 阅读(601) 评论(0) 推荐(0) 编辑
摘要:hive调优涉及到压缩和存储调优,参数调优,sql的调优,数据倾斜调优,小文件问题的调优等。 压缩调优:一般选择orcfile/parquet + snappy方式 存储调优:合理设计表,充分利用分区和分桶建表 参数调优 HQL调优 数据倾斜调优 小文件处理调优 阅读全文
posted @ 2021-11-23 16:07 民宿 阅读(41) 评论(0) 推荐(0) 编辑
摘要:1.数据倾斜分哪几类以及如何优化? 开发人员首先要确认几点: 需要计算的指标真的需要从数据仓库的公共明细层来自行汇总吗?数据团队开发的公共汇总层是否可以满足其要求了? 真的需要扫描这么多分区吗?能扫描一周的就不扫描一年的。 尽量不要使用select * from table这样的词语,能指定哪一列就 阅读全文
posted @ 2021-11-23 16:01 民宿 阅读(435) 评论(0) 推荐(0) 编辑
摘要:1.小文件产生 使用hive过程中经常会遇到小文件问题: 在执行插入数据操作过程中,可能会产生小文件(map输入); map-only作业,可能会产生小文件(map输出); map-reduce作业,每个reduce输出一个文件,可能产生小文件(reduce输出)。 2.小文件影响 hdfs存储:存 阅读全文
posted @ 2021-11-23 14:45 民宿 阅读(911) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示