06 2020 档案

摘要:字段A放在字段B后面: ALTER TABLE 表名 change 字段A名 字段A名2 字段类型 after 字段B名; 阅读全文
posted @ 2020-06-09 11:23 streetpasser
摘要:转载自 https://www.iteye.com/blog/sunjia-704471770-qq-com-1635966 一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大 阅读全文
posted @ 2020-06-09 11:15 streetpasser
摘要:桶的概念: https://blog.csdn.net/bigkeen/article/details/51318997 1 bucket mapjoin1.1 条件1) set hive.optimize.bucketmapjoin = true; 2) 一个表的bucket数是另一个表bucke 阅读全文
posted @ 2020-06-09 11:13 streetpasser
摘要:一. inner join/ left join/ right join/ full join/ left semi join/ cross join 这里主要说一下 left semi join 和 cross join: 1. 左半连接(LEFT SEMI JOIN) IN/EXISTS 子查询 阅读全文
posted @ 2020-06-08 18:46 streetpasser
摘要:数据倾斜症状: ・ 任务长时间维持在99%(或100%);・ 查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成;・ 本地读写数据量很大。 原因: ・ key分布不均匀; ・ 业务数据本身特点; 导致数据倾斜的操作: ① 某key值的记录太多,导致使用COUNT DISTINCT或 阅读全文
posted @ 2020-06-08 17:38 streetpasser