随笔分类 - Big Data
摘要:什么是数据倾斜(Data Skew)? 数据倾斜是指在原本应该并行处理的数据集中,某一部分的数据显著多于其它部分,从而使得该部分数据的处理速度成为整个数据集处理的瓶颈。 假设数据分布不均匀,某个key对应几十万条数据,其他key对应几百条或几十条数据,那么在处理数据的时候,大量相同的key会被分配(
阅读全文
摘要:首先,这里说的Hive指的是Hive on Mapreduce。(此外,还有Hive on Spark,区别只是后者把执行计划放到spark集群上运行。) Hive是一种数据仓库软件,能够协助读写、管理那些存储在分布式存储系统上的大数据集。 Hive架构在Hadoop之上,底层存储在HDFS上,底层
阅读全文