摘要: join操作: 这个 group by count()操作: 数据倾斜: 操作• Join on a.id=b.id• Group by• Count Distinct count(groupby)• 原因• key分布不均导致的• 人为的建表疏忽• 业务数据特点• 症状• 任务进度长时间维持在99 阅读全文
posted @ 2018-05-07 23:42 睡觉的阿狸 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 先查看表 timestamp可以转换为标准的时间(精确到秒); https://tool.lu/timestamp/ 这个时间格式用处很多: 多个时间可以使用函数,来切换。 每个用户 产生行为的时候,用timestamp来区分下单先后关系,记录什么时候看过哪些商品; 比较大小,比如最早订单。。 se 阅读全文
posted @ 2018-05-07 23:41 睡觉的阿狸 阅读(12529) 评论(0) 推荐(0) 编辑
摘要: 简单的word-count操作: [root@master test-map]# head -10 The_Man_of_Property.txt #先看看数据Preface“The Forsyte Saga” was the title originally destined for that p 阅读全文
posted @ 2018-05-07 20:55 睡觉的阿狸 阅读(199) 评论(0) 推荐(0) 编辑