摘要: 阅读全文
posted @ 2017-07-11 20:42 ilvutm博园 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 1、编写函数 [java] view plaincopyprint?package com.example.hive.udf; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public fi 阅读全文
posted @ 2017-07-11 20:40 ilvutm博园 阅读(2759) 评论(0) 推荐(0) 编辑
摘要: 网上有篇关于hive的partition的使用讲解的比较好,转载了:一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间 阅读全文
posted @ 2017-07-11 20:35 ilvutm博园 阅读(19208) 评论(0) 推荐(1) 编辑
摘要: 通过HQL语句 可以将hive 中表的数据生成到指定的目录。 有时候 我们可以利用hive来生成统计的中间文件(比源文件小的多的) 方法有如下2种: 1.INSERT OVERWRITE LOCAL DIRECTORY 将结果输出到指定的目录: 生成的文件数 和redurcer的数目的一样的 在hi 阅读全文
posted @ 2017-07-11 20:34 ilvutm博园 阅读(4665) 评论(1) 推荐(0) 编辑
摘要: SELECT TIMESTAMPDIFF(SECOND, now(), "2012-11-11 00:00:00") 语法为:TIMESTAMPDIFF(unit,datetime1,datetime2), 其中unit单位有如下几种,分别是:FRAC_SECOND (microseconds), 阅读全文
posted @ 2017-07-11 20:30 ilvutm博园 阅读(1471) 评论(2) 推荐(0) 编辑