摘要: Hive数据倾斜方法小结 一、含义 现象:在执行HiveQL或MapReduce作业时,卡在map100%,reduce99%; 本质:进行分布式计算时,某些节点的计算能力比较强或者需要计算的数据比较少,很快执行完毕后,必须等待其他未完成节点。 二、原因及解决方法 group by 场景: 将相同的 阅读全文
posted @ 2021-03-17 21:20 小小马进阶笔记 阅读(150) 评论(0) 推荐(0) 编辑
摘要: Hadoop就是存储海量数据和分析海量数据的工具。 1.2、稍专业点的解释 Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。 HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实 阅读全文
posted @ 2021-03-17 21:09 小小马进阶笔记 阅读(60) 评论(0) 推荐(0) 编辑