摘要: Hive面试题整理(一) 1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆) 1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1)key分布不均匀; (2)业务 阅读全文
posted @ 2021-08-22 20:31 tonggang_bigdata 阅读(543) 评论(0) 推荐(0) 编辑
摘要: package sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo04FlatMap { def main(args: Array[String]): 阅读全文
posted @ 2021-08-22 20:18 tonggang_bigdata 阅读(77) 评论(0) 推荐(0) 编辑