2018 年 9月 11 日随笔档案 - 打杂滴

hive数据倾斜原因以及解决办法

摘要：何谓数据倾斜？数据倾斜指的是，并行处理的数据集中，某一部分（如Spark的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。表现为整体任务基本完成，但仍有少量子任务的reduce还在运行。数据倾斜的原因: 1.join 一个表较小，但key集中，阅读全文

posted @ 2018-09-11 17:53 打杂滴阅读(2352) 评论(0) 推荐(0) 编辑

hive设置参数的方法

摘要： 1.修改环境变量 ${HIVE_HOME}/conf/hive-site.xml 2.命令行参数 -e : 执行短命令 -f : 执行文件（适合脚本封装） -S : 安静模式，不显示MR的运行过程 -hivevar : 传参数，专门提供给用户自定义变量。 -hiveconf : 传参数，包括了hi 阅读全文

posted @ 2018-09-11 16:09 打杂滴阅读(526) 评论(0) 推荐(0) 编辑

hive文件格式

摘要： hive 默认格式为文本格式，便于文本查看数据，便于与其他工具共享,与二进制文件相比占用较大的空间 hive> create table tb_test(id int,name string) stored as textfile;OKTime taken: 0.968 secondshive> s 阅读全文

posted @ 2018-09-11 13:47 打杂滴阅读(575) 评论(0) 推荐(0) 编辑

努力，奋斗

公告

2018年9月11日

hive数据倾斜原因以及解决办法

hive设置参数的方法

hive文件格式