摘要: 一、cume_dist 这两个序列分析函数不是很常用,这里也介绍一下。注意: 序列函数不支持WINDOW子句。 数据准备: 创建表并加载数据 验证数据: CUME_DIST–CUME_DIST 小于等于当前值的行数/分组内总行数–比如,统计小于等于当前薪水的人数,所占总人数的比例 rn1: 没有pa 阅读全文
posted @ 2016-08-04 18:04 dongdone 阅读(1462) 评论(0) 推荐(0) 编辑
摘要: 一、ntile 序列函数不支持window子句 数据准备: 把数据load到表中 NTILE(n),用于将分组数据按照顺序切分成n片,返回当前切片值NTILE不支持ROWS BETWEEN,比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createt 阅读全文
posted @ 2016-08-04 17:33 dongdone 阅读(795) 评论(0) 推荐(0) 编辑
摘要: Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。 1.数据准备 本地文件上的文件 吧本地文件系统上的文件上传到hdfs上,并为此数据建立外部表 验证表中是 阅读全文
posted @ 2016-08-04 16:25 dongdone 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 一、r的防止字符转义 运行结果: 二、获取变量类型 运行结果: 三、判断类型 运行结果: 四、对list、tuple、dict、set进行迭代 4.1常用的方式 但是这种迭代方式会把list装到内存中进行迭代 4.2使用迭代器来迭代 这种方式的迭代比较省内存 4.3迭代值的同时迭代下标 五、列表生成 阅读全文
posted @ 2016-08-04 12:09 dongdone 阅读(11466) 评论(0) 推荐(1) 编辑
摘要: 首先要做的是将kettle在linux下搭建好。 一、搭建linux的kettle环境 1.1解压 1.2配置kettle_home 1.3需要把文件资源库的配置拷贝到linux环境下 1.4拷贝资源库到linux下 1.5修改.kettle目录下的资源库的映射 1.6吧mysql的驱动包放到ket 阅读全文
posted @ 2016-08-04 10:44 dongdone 阅读(2072) 评论(0) 推荐(1) 编辑