2018年9月11日

摘要: 何谓数据倾斜?数据倾斜指的是,并行处理的数据集 中,某一部分(如Spark的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 表现为整体任务基本完成,但仍有少量子任务的reduce还在运行。 数据倾斜的原因: 1.join 一个表较小,但key集中, 阅读全文

posted @ 2018-09-11 17:53 打杂滴 阅读(2352) 评论(0) 推荐(0) 编辑

摘要: 1.修改环境变量 ${HIVE_HOME}/conf/hive-site.xml 2.命令行参数 -e : 执行短命令 -f : 执行文件(适合脚本封装) -S : 安静模式,不显示MR的运行过程 -hivevar : 传参数 ,专门提供给用户自定义变量。 -hiveconf : 传参数,包括了hi 阅读全文

posted @ 2018-09-11 16:09 打杂滴 阅读(526) 评论(0) 推荐(0) 编辑

摘要: hive 默认格式为文本格式,便于文本查看数据,便于与其他工具共享,与二进制文件相比占用较大的空间 hive> create table tb_test(id int,name string) stored as textfile;OKTime taken: 0.968 secondshive> s 阅读全文

posted @ 2018-09-11 13:47 打杂滴 阅读(575) 评论(0) 推荐(0) 编辑


Copyright © 2024 打杂滴
Powered by .NET 8.0 on Kubernetes