随笔分类 - hive
摘要:一、cume_dist 这两个序列分析函数不是很常用,这里也介绍一下。注意: 序列函数不支持WINDOW子句。 数据准备: 创建表并加载数据 验证数据: CUME_DIST–CUME_DIST 小于等于当前值的行数/分组内总行数–比如,统计小于等于当前薪水的人数,所占总人数的比例 rn1: 没有pa
阅读全文
摘要:一、ntile 序列函数不支持window子句 数据准备: 把数据load到表中 NTILE(n),用于将分组数据按照顺序切分成n片,返回当前切片值NTILE不支持ROWS BETWEEN,比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createt
阅读全文
摘要:Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。 1.数据准备 本地文件上的文件 吧本地文件系统上的文件上传到hdfs上,并为此数据建立外部表 验证表中是
阅读全文