2020年4月25日
摘要: 1.Fetch抓取 Fetch抓取是,Hive中对某些情况的查询可以不必使用MapReduce计算;例如像select * from table这种的操作,在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台; 在hive-default.xml.te 阅读全文
posted @ 2020-04-25 15:17 wnwn 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 1.什么是数据倾斜 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点;简单来说就是key的分化严重不均,造成一部分数据很多,一部分数据很少的情况; 比如:wordcount,最后的输出阶段形成了('aaa',1)这种格式,然后在reduce阶段进行value的增加操作,最后计算出value 阅读全文
posted @ 2020-04-25 14:41 wnwn 阅读(181) 评论(0) 推荐(0) 编辑