02 2020 档案
摘要:hadoop使用lzo压缩,block块大小为512MB环境:hadoop2.6+hive1.2.1 lzo压缩启动压缩set hive.exec.compress.output=true;set mapreduce.output.fileoutputformat.compress=true; 1、
阅读全文
摘要:函数简介lateral view 函数用于将数据一行转多列,一般与explode、split、collect_set函数一起使用基本使用 案例A:现在有一张学生绩效表,记录了每个学生的所有科目的成绩, 需要查询所有拿了A的学生数 student_name(string) student_course
阅读全文
摘要:Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependen
阅读全文