随笔分类 - Big Data

Hive数据倾斜原因和解决办法（Data Skew）

摘要：什么是数据倾斜（Data Skew）？数据倾斜是指在原本应该并行处理的数据集中，某一部分的数据显著多于其它部分，从而使得该部分数据的处理速度成为整个数据集处理的瓶颈。假设数据分布不均匀，某个key对应几十万条数据，其他key对应几百条或几十条数据，那么在处理数据的时候，大量相同的key会被分配（阅读全文

posted @ 2020-04-22 15:36 HuZihu 阅读(6747) 评论(0) 推荐(3) 编辑

Hive简介

摘要：首先，这里说的Hive指的是Hive on Mapreduce。（此外，还有Hive on Spark，区别只是后者把执行计划放到spark集群上运行。） Hive是一种数据仓库软件，能够协助读写、管理那些存储在分布式存储系统上的大数据集。 Hive架构在Hadoop之上，底层存储在HDFS上，底层阅读全文

posted @ 2020-04-22 15:20 HuZihu 阅读(460) 评论(0) 推荐(0) 编辑

公告

昵称： HuZihu
园龄： 7年5个月
粉丝： 101
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

HuZihu

随笔分类 - Big Data

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论