摘要: 写个shell脚本Hive 按时间定期插入分区表,由于今天统计的是昨天的数据所以日期减一。 阅读全文
posted @ 2017-11-03 13:52 RZ_Lee 阅读(1355) 评论(0) 推荐(0) 编辑
摘要: step1 input InputFormat读取数据,将数据转换成<key ,value>对,设置FileInputFormat,默认是文本格式(TextInputFormat) step2 map map<KEYIN, VALUEIN, KEYOUT, VALUEOUT> 默认情况下KEYIN: 阅读全文
posted @ 2017-11-03 11:43 RZ_Lee 阅读(2773) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜就是由于数据分布不均匀,数据大量集中到一点上,造成数据热点。大多数情况下,分为一下三种情况: 1.map端执行比较快,reduce执行很慢,因为partition造成的数据倾斜。 2.某些reduce很快,某些reduce很慢,也是因为partition造成的数据倾斜。 3.某些map执行很 阅读全文
posted @ 2017-11-03 01:21 RZ_Lee 阅读(4491) 评论(0) 推荐(0) 编辑