摘要: 在鞋厂的第一个任务,拆表。需要把订单表按照开始日期和结束日期拆分成多条记录,挺新鲜的~ transform方式,使用到了python。 (1)把hive表的数据传入,通过python按照日期循环处理,返回多条记录。 (2)生成序列表,然后采用cross join的方式,在hive端生成多条记录,再根 阅读全文
posted @ 2018-08-16 13:11 丫丫GoUp 阅读(372) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜解决方法,通常从以下几个方面进行考量: 业务上丢弃 • 不参与关联:在on条件上直接过滤 • 随机数打散:比如 null、空格、0等“Other”性质的特殊值 倾斜键记录单独处理 • Join:找出倾斜key,把对应数据插入临时表,如果该表是小表,使用map join解决; • Group 阅读全文
posted @ 2018-08-16 09:59 丫丫GoUp 阅读(673) 评论(1) 推荐(0) 编辑