摘要: 1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 回到顶部 2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 回到顶部 阅读全文
posted @ 2019-12-25 17:38 一只竹节虫 阅读(156) 评论(0) 推荐(0) 编辑
摘要: LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) 与LAG相反 LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值 第一个参 阅读全文
posted @ 2019-12-25 17:06 一只竹节虫 阅读(216) 评论(0) 推荐(0) 编辑