摘要: 1、选择最有效的表名顺序例: /*高效的SQL*/ SELECT * FROM LOCATION L, CATEGORY C, EMP E WHERE E.EMP_NO BETWEEN 1000 AND 2000 AND E.CAT_NO = C.CAT_NO AND E.LOCN = L.LOCN 阅读全文
posted @ 2022-08-25 15:31 尘尘尘尘 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 1、hive数据导出到hdfs insert overwrite directory 'hivehouse' row format delimited fields terminated by '|' select * from table_name; 2、hdfs 数据导出到本地 hdfs dfs 阅读全文
posted @ 2022-08-25 15:28 尘尘尘尘 阅读(1259) 评论(0) 推荐(0) 编辑
摘要: 1、HIVE数据导入到mysql (1) shell脚本 连接数据库 创建对应表信息 mysql -hIP地址 -u用户名 -p密码 数据库 -P16063 -e"执行sql脚本" (2) 通过sqoop 导出数据到mysql sqoop export -Dmapred.job.queue.name 阅读全文
posted @ 2022-08-25 15:24 尘尘尘尘 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 在map和reduce两个阶段中,最容易出现数据倾斜的阶段是 reduce 阶段因为从map 到 reduce 会经过shuffle阶段 ,shuffle 默认按照key 进行hash如果相同的key太多 ,那么hash的结果 大量相同的key就会进入同一个reduce 导致数据倾斜当然map阶段 阅读全文
posted @ 2022-08-25 15:14 尘尘尘尘 阅读(345) 评论(0) 推荐(0) 编辑