hive函数总结

hive函数的分类

hive的客户端

显示当前会话有多少函数可用
SHOW FUNCTIONS;

如：

hive> show functions ;
OK
!
!=
%

显示函数的描述信息
DESC FUNCTION concat;

如：

hive> DESC FUNCTION concat;
OK
concat(str1, str2, ... strN) - returns the concatenation of str1, str2, ... strN or concat(bin1, bin2, ... binN) - returns the concatenation of bytes in binary data bin1, bin2, ... binN
Time taken: 0.005 seconds, Fetched: 1 row(s)

显示函数的扩展描述信息
DESC FUNCTION EXTENDED concat;

一.简单函数

1.数学函数

返回对a四舍五入的BIGINT值

1 返回值：
2 hive> select round(2.5);
3 OK
4 3.0
5 Time taken: 0.093 seconds, Fetched: 1 row(s)

返回DOUBLE型d的保留n位小数的DOUBLW型的近似值 round(DOUBLE a, INT d)

1 返回值：double
2 hive> select round(0.5002,2);
3 OK
4 0.5
5 Time taken: 0.074 seconds, Fetched: 1 row(s)

银行家舍入法（1~4：舍，6~9：进，5->前位数是偶：舍，5->前位数是奇：进） bround(DOUBLE a)

返回值：double
bround(2.5) = 2, bround(3.5) = 4.

银行家舍入法,保留d位小数 bround(DOUBLE a, INT d)

1 返回值：double
2 bround(8.25, 1) = 8.2, bround(8.35, 1) = 8.4

向下取整，最数轴上最接近要求的值的左边的值如：6.10->6 -3.4->-4 floor(DOUBLE a)

1 返回值：double
2 hive> select floor(6.10);
3 OK
4 6
5 Time taken: 0.07 seconds, Fetched: 1 row(s)
6 hive> select floor(-3.4);
7 OK
8 -4
9 Time taken: 0.104 seconds, Fetched: 1 row(s)

求其不小于小给定实数的最小整数如：ceil(6) = ceil(6.1)= ceil(6.9) = 6 ceil(DOUBLE a), ceiling(DOUBLE a)

 1 返回值：BIGINT
 2 hive> select ceil(6);
 3 OK
 4 6
 5 Time taken: 0.2 seconds, Fetched: 1 row(s)
 6 hive> select ceil(6.1);
 7 OK
 8 7
 9 Time taken: 0.061 seconds, Fetched: 1 row(s)
10 hive> select ceil(6.9);
11 OK
12 7
13 Time taken: 0.153 seconds, Fetched: 1 row(s)

每行返回一个DOUBLE型随机数seed是随机因子 rand(), rand(INT seed)

1 返回值：DOUBLE
2 hive> select rand(2);
3 OK
4 0.7311469360199058
5 Time taken: 0.068 seconds, Fetched: 1 row(s)
6 hive> select rand();
7 OK
8 0.7859071491095923
9 Time taken: 0.064 seconds, Fetched: 1 row(s)

返回e的a幂次方， a可为小数 exp(DOUBLE a), exp(DECIMAL a)

1 返回值：double
2 hive> select exp(2);
3 OK
4 7.38905609893065
5 Time taken: 0.1 seconds, Fetched: 1 row(s)

以自然数为底d的对数，a可为小数 ln(DOUBLE a), ln(DECIMAL a)

 1 返回值：double
 2 ln(DOUBLE a), ln(DECIMAL a)
 3    > select ln(3);
 4 OK
 5 1.0986122886681098
 6 Time taken: 0.081 seconds, Fetched: 1 row(s)
 7 hive> select ln(3.2);
 8 OK
 9 1.1631508098056809
10 Time taken: 0.067 seconds, Fetched: 1 row(s)

以10为底d的对数，a可为小数 log10(DOUBLE a), log10(DECIMAL a)

1 返回值：double
2 hive> select log10(3.2);
3 OK
4 0.505149978319906
5 Time taken: 0.084 seconds, Fetched: 1 row(s)
6 hive> select log10(3);
7 OK
8 0.47712125471966244
9 Time taken: 0.075 seconds, Fetched: 1 row(s)

以2为底数d的对数，a可为小数 log2(DOUBLE a), log2(DECIMAL a)

 1 返回值：double
 2 hive> 
 3     > select log2(3);
 4 OK
 5 1.5849625007211563
 6 Time taken: 0.083 seconds, Fetched: 1 row(s)
 7 hive> select log2(3.2);
 8 OK
 9 1.6780719051126378
10 Time taken: 0.07 seconds, Fetched: 1 row(s)

以base为底的对数，base 与 a都是DOUBLE类型

log(DOUBLE base, DOUBLE a)

log(DECIMAL base, DECIMAL a)

1 返回值：double
2 hive> select log(2,3.2);
3 OK
4 1.6780719051126378
5 Time taken: 0.084 seconds, Fetched: 1 row(s)
6 hive> select log(2,3);
7 OK
8 1.5849625007211563
9 Time taken: 0.066 seconds, Fetched: 1 row(s)

计算a的p次幂 pow(DOUBLE a, DOUBLE p), power(DOUBLE a, DOUBLE p)

1 返回值:double
2 hive> select pow(2,4);
3 OK
4 16.0
5 Time taken: 0.065 seconds, Fetched: 1 row(s)

计算a的平方根 sqrt(DOUBLE a), sqrt(DECIMAL a)

1 返回值：double
2 select sqrt(2);

计算二进制a的STRING类型，a为BIGINT类型 bin(BIGINT a)

返回值：string
hive> select bin(2);
OK
10
Time taken: 0.194 seconds, Fetched: 1 row(s)

计算十六进制a的STRING类型，如果a为STRING类型就转换成字符相对应的十六进制 hex(BIGINT a) hex(STRING a) hex(BINARY a)

1 返回值：STRING
2 hive> select hex(2);
3 OK
4 2
5 Time taken: 0.097 seconds, Fetched: 1 row(s)

hex的逆方法

unhex(STRING a)

1 返回值：BINARY
2 hive> select unhex(2);
3 OK
4 
5 Time taken: 0.077 seconds, Fetched: 1 row(s)

将GIGINT/STRING类型的num从from_base进制转换成to_base进制 conv(BIGINT num, INT from_base, INT to_base), conv(STRING num, INT from_base, INT to_base)

1 返回值：STRING
2 hive> select conv(2,10,2);
3 OK
4 10
5 Time taken: 0.075 seconds, Fetched: 1 row(s)

计算a的绝对值 abs(DOUBLE a)

1 返回值：DOUBLE
2 hive> select abs(-2);
3 OK
4 2
5 Time taken: 0.077 seconds, Fetched: 1 row(s)

a对b取模 pmod(INT a, INT b), pmod(DOUBLE a, DOUBLE b)

1 返回值：double
2 hive> select pmod(4,2);
3 OK
4 0
5 Time taken: 0.077 seconds, Fetched: 1 row(s)

求a的正弦值 sin(DOUBLE a), sin(DECIMAL a)

1 返回值：double
2 hive> select sin(2.5);
3 OK
4 0.5984721441039564
5 Time taken: 0.092 seconds, Fetched: 1 row(s)

求d的反正弦值 asin(DOUBLE a), asin(DECIMAL a)

1 返回值：double
2 hive> select asin(2.5);
3 OK
4 NaN
5 Time taken: 0.097 seconds, Fetched: 1 row(s)

求余弦值 cos(DOUBLE a), cos(DECIMAL a)

1 返回值：double
2 hive> select cos(2.5);
3 OK
4 -0.8011436155469337
5 Time taken: 0.087 seconds, Fetched: 1 row(s)

求反余弦值 acos(DOUBLE a), acos(DECIMAL a)

1 返回值：double
2 hive> select acos(2.5);
3 OK
4 NaN
5 Time taken: 0.091 seconds, Fetched: 1 row(s)

求正切值 tan(DOUBLE a), tan(DECIMAL a)

1 返回值：double
2 hive> select tan(2.5);
3 OK
4 -0.7470222972386603
5 Time taken: 0.076 seconds, Fetched: 1 row(s)

求反正切值 atan(DOUBLE a), atan(DECIMAL a)

1 返回值：double
2 hive> select atan(2.5);
3 OK
4 1.1902899496825317
5 Time taken: 0.074 seconds, Fetched: 1 row(s)

奖弧度值转换角度值 degrees(DOUBLE a), degrees(DECIMAL a)

1 返回值：DOUBLE
2 hive> select degrees(30);
3 OK
4 1718.8733853924698
5 Time taken: 0.114 seconds, Fetched: 1 row(s)

将角度值转换成弧度值 radians(DOUBLE a), radians(DOUBLE a)

1 返回值：double
2 hive> select radians(30);
3 OK
4 0.5235987755982988
5 Time taken: 0.093 seconds, Fetched: 1 row(s)

返回a positive(INT a), positive(DOUBLE a)

1 返回值：INT or DOUBLE
2 hive> select positive(2);
3 OK
4 2
5 Time taken: 0.124 seconds, Fetched: 1 row(s)

返回a的相反数 negative(INT a), negative(DOUBLE a)

1 返回值：double
2 hive> select negative(2);
3 OK
4 -2
5 Time taken: 0.066 seconds, Fetched: 1 row(s)

如果a是正数则返回1.0，是负数则返回-1.0，否则返回0.0 sign(DOUBLE a), sign(DECIMAL a)

1 返回值：DOUBLE or INT
2 hive> select sign(2);
3 OK
4 1.0
5 Time taken: 0.091 seconds, Fetched: 1 row(s)

数学常数e e()

1 返回值：double
2 hive> select e();
3 OK
4 2.718281828459045
5 Time taken: 0.07 seconds, Fetched: 1 row(s)

数学常数pi pi()

1 返回值：double
2 hive> select pi();
3 OK
4 3.141592653589793
5 Time taken: 0.082 seconds, Fetched: 1 row(s)

求a的阶乘 factorial(INT a)

1 返回值：BIGINT
2 select  factorial(2);

求a的立方根 cbrt(DOUBLE a)

1 返回值：DOUBLE
2 select cbrt(2);

按位左移

shiftleft(TINYINT|SMALLINT|INT a, INT b)

shiftleft(BIGINT a, INT b)

1 返回值：int bigint
2 hive> select shiftleft(2,3);

按拉右移

shiftright(TINYINT|SMALLINT|INT a, INTb)

shiftright(BIGINT a, INT b)

1 返回值：INT BIGINT
2 hive> select shiftrigth(2,3);

无符号按位右移（<<<）

shiftrightunsigned(TINYINT|SMALLINT|INTa, INT b),

shiftrightunsigned(BIGINT a, INT b)

1 返回值：INT BIGINT
2 select shiftrightunsigned(2,3);

求最大值 greatest(T v1, T v2, ...)

1 返回值：T
2 hive> select greatest(2,3,6,7);
3 OK
4 7
5 Time taken: 0.072 seconds, Fetched: 1 row(s)

求最小值 least(T v1, T v2, ...)

1 返回值：double
2 hive> select least(2,3,6,7);
3 OK
4 2
5 Time taken: 0.079 seconds, Fetched: 1 row(s)

2.类型转换函数

将输入的值转换成二进制 binary(string|binary)

1 返回值：binary
2 hive> select binary('4');
3 OK
4 4
5 Time taken: 0.08 seconds, Fetched: 1 row(s)

将expr转换成type类型如：cast("1" as BIGINT) 将字符串1转换成了BIGINT类型，如果转换失败将返回NULL cast(expr as <type>)

1 返回值：Expected "=" to follow "type"
2 hive> select cast("1" as BIGINT) ;
3 OK
4 1
5 Time taken: 0.266 seconds, Fetched: 1 row(s)

3.日期函数

日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])

1 返回值: string
2 说明: 转化UNIX时间戳（从1970-01-01 00:00:00 UTC到指定时间的秒数）到当前时区的时间格式
3 举例：
4 hive> select from_unixtime(1323308943,'yyyyMMdd');
5 OK
6 20111208
7 Time taken: 0.152 seconds, Fetched: 1 row(s)

获取当前UNIX时间戳函数: unix_timestamp语法: unix_timestamp()

1 返回值:   bigint
2 说明: 获得当前时区的UNIX时间戳
3 举例：
4 Time taken: 0.152 seconds, Fetched: 1 row(s)
5 hive>  select unix_timestamp();
6 OK
7 1487931871
8 Time taken: 0.106 seconds, Fetched: 1 row(s)

日期转UNIX时间戳函数: unix_timestamp语法: unix_timestamp(string date)

1 返回值:   bigint
2 说明: 转换格式为“yyyy-MM-dd HH:mm:ss“的日期到UNIX时间戳。如果转化失败，则返回0。
3 举例：
4 hive> select unix_timestamp('2011-12-07 13:01:03');
5 OK
6 1323234063
7 Time taken: 0.083 seconds, Fetched: 1 row(s)

指定格式日期转UNIX时间戳函数: unix_timestamp语法: unix_timestamp(string date, string pattern)

1 返回值:   bigint
2 说明: 转换pattern格式的日期到UNIX时间戳。如果转化失败，则返回0。
3 举例：
4 hive> select unix_timestamp('20111207 13:01:03','yyyyMMdd HH:mm:ss');
5 OK
6 1323234063
7 Time taken: 0.079 seconds, Fetched: 1 row(s)

日期时间转日期函数: to_date语法: to_date(string timestamp)

1 返回值:   string
2 说明: 返回日期时间字段中的日期部分。
3 举例：
4 hive> select to_date('2011-12-08 10:03:01') ;
5 OK
6 2011-12-08
7 Time taken: 0.194 seconds, Fetched: 1 row(s)

日期转年函数: year语法: year(string date)

1 返回值: int
2 说明: 返回日期中的年。
3 举例：
4 hive>  select year('2011-12-08 10:03:01');
5 OK
6 2011
7 Time taken: 0.168 seconds, Fetched: 1 row(s)

日期转月函数: month语法: month (string date)

1 返回值: int
2 说明: 返回日期中的月份。
3 举例：
4 hive>  select month('2011-12-08 10:03:01');
5 OK
6 12
7 Time taken: 0.084 seconds, Fetched: 1 row(s)

1 hive> select month('2011-08-08');
2 OK
3 8
4 Time taken: 0.095 seconds, Fetched: 1 row(s)

日期转天函数: day语法: day (string date)

1 返回值: int
2 说明: 返回日期中的天。
3 举例：
4 hive>  select day('2011-12-08 10:03:01');
5 OK
6 8
7 Time taken: 0.115 seconds, Fetched: 1 row(s)

1 hive> select day('2011-12-24');
2 OK
3 24
4 Time taken: 0.294 seconds, Fetched: 1 row(s)

日期转小时函数: hour语法: hour (string date)

1 返回值: int
2 说明: 返回日期中的小时。
3 举例：
4 hive> select hour('2011-12-08 10:03:01');
5 OK
6 10
7 Time taken: 0.082 seconds, Fetched: 1 row(s)

日期转分钟函数: minute语法: minute (string date)

1 返回值: int
2 说明: 返回日期中的分钟。
3 举例：
4 hive>  select minute('2011-12-08 10:03:01');
5 OK
6 3
7 Time taken: 0.181 seconds, Fetched: 1 row(s)

日期转秒函数: second语法: second (string date)

1 返回值: int
2 说明: 返回日期中的秒。
3 举例：
4 hive>  select second('2011-12-08 10:03:01');
5 OK
6 1
7 Time taken: 0.693 seconds, Fetched: 1 row(s)

日期转周函数: weekofyear语法: weekofyear (string date)

1 返回值: int
2 说明: 返回日期在当前的周数。
3 举例：
4 hive> select weekofyear('2011-12-08 10:03:01')
5     > ;
6 OK
7 49
8 Time taken: 0.119 seconds, Fetched: 1 row(s)

日期比较函数: datediff语法: datediff(string enddate, string startdate)

1 返回值: int
2 说明: 返回结束日期减去开始日期的天数。
3 举例：
4 hive> select datediff('2012-12-08','2012-05-09');
5 OK
6 213
7 Time taken: 0.082 seconds, Fetched: 1 row(s)

日期增加函数: date_add语法: date_add(string startdate, int days)

1 返回值: string
2 说明: 返回开始日期startdate增加days天后的日期。
3 举例：
4 hive> select date_add('2012-12-08',10);
5 OK
6 2012-12-18
7 Time taken: 0.201 seconds, Fetched: 1 row(s)

日期减少函数: date_sub语法: date_sub (string startdate, int days)

1 返回值: string
2 说明: 返回开始日期startdate减少days天后的日期。
3 举例：
4 hive> select date_sub('2012-12-08',10);
5 OK
6 2012-11-28
7 Time taken: 0.125 seconds, Fetched: 1 row(s)

返回这个月的最后一天的日期，忽略时分秒部分（HH:mm:ss） last_day(string date)

1 返回值：string
2 hive> select  last_day('2017-02-17 08:34:23');
3 OK
4 2017-02-28
5 Time taken: 0.082 seconds, Fetched: 1 row(s)

返回当前时间的下一个星期X所对应的日期如：next_day('2015-01-14', 'TU') = 2015-01-20 以2015-01-14为开始时间，其下一个星期二所对应的日期为2015-01-20

1 返回值：string
2 hive> select next_day('2015-01-14', 'TU') ;
3 OK
4 2015-01-20
5 Time taken: 0.319 seconds, Fetched: 1 row(s)

返回当前时间属性哪个季度如quarter('2015-04-08') = 2

1 返回值：int
2 quarter(date/timestamp/string)

返回当前时间日期

返回值：date
hive> select current_date;
OK
2017-02-25
Time taken: 0.087 seconds, Fetched: 1 row(s)

如果给定的时间戳并非UTC，则将其转化成指定的时区下时间戳

1 返回值：timestamp
2 from_utc_timestamp(timestamp, string timezone)
3 hive> select from_utc_timestamp('1970-01-01 08:00:00','PST');
4 OK
5 1970-01-01 00:00:00
6 Time taken: 0.122 seconds, Fetched: 1 row(s)

如果给定的时间戳指定的时区下时间戳，则将其转化成UTC下的时间戳 to_utc_timestamp(timestamp, string timezone)

1 返回值：timestamp
2 hive> select to_utc_timestamp('1970-01-01 00:00:00','PST');
3 OK
4 1970-01-01 08:00:00
5 Time taken: 0.099 seconds, Fetched: 1 row(s)

返回当前时间戳

1 返回值：timestamp
2 hive> select current_timestamp;
3 OK
4 2017-02-25 00:28:46.724
5 Time taken: 0.069 seconds, Fetched: 1 row(s)

返回当前时间下再增加num_months个月的日期 add_months(string start_date, int num_months)

1 返回值：string
2 hive> select add_months('2017-02-10', 2);
3 OK
4 2017-04-10
5 Time taken: 0.061 seconds, Fetched: 1 row(s)

5.条件函数

如果testCondition 为true就返回valueTrue,否则返回valueFalseOrNull ，（valueTrue，valueFalseOrNull为泛型）

if(boolean testCondition, T valueTrue, T valueFalseOrNull)

1 返回值：T

如果value值为NULL就返回default_value,否则返回value

nvl(T value, T default_value)

1 返回值：T

返回第一非null的值，如果全部都为NULL就返回NULL 如：COALESCE (NULL,44,55)=44/strong>

COALESCE(T v1, T v2, ...)

1 返回值：T

如果a=b就返回c,a=d就返回e，否则返回f 如CASE 4 WHEN 5 THEN 5 WHEN 4 THEN 4 ELSE 3 END 将返回4

CASE a WHEN b THEN c [WHEN d THEN e]* [ELSE f] END

1 返回值：T

如果a=ture就返回b,c= ture就返回d，否则返回e 如：CASE WHEN 5>0 THEN 5 WHEN 4>0 THEN 4 ELSE 0 END 将返回5；CASE WHEN 5<0 THEN 5 WHEN 4<0 THEN 4 ELSE 0 END 将返回0

CASE WHEN a THEN b [WHEN c THEN d]* [ELSE e] END

1 返回值：T

如果a为null就返回true，否则返回false

isnull( a )

1 返回值：boolean

如果a为非null就返回true，否则返回false

isnotnull ( a )

1 返回值：boolean

6.字符函数

返回str中首个ASCII字符串的整数值

ascii(string str)

1 返回值：int

将二进制bin转换成64位的字符串

base64(binary bin)

1 返回值：string

对二进制字节码或字符串按次序进行拼接

concat(string|binary A, string|binary B...)

1 返回值：string

与ngram类似，但context_ngram()允许你预算指定上下文(数组)来去查找子序列，具体看StatisticsAndDataMining(这里的解释更易懂)

context_ngrams(array<array<string>>, array<string>, int K, int pf)

1 返回值：array<struct<string,double>>

与concat()类似，但使用指定的分隔符喜进行分隔

concat_ws(string SEP, string A, string B...)

1 返回值：string

拼接Array中的元素并用指定分隔符进行分隔

concat_ws(string SEP, array<string>)

1 返回值：string

使用指定的字符集charset将字符串编码成二进制值，支持的字符集有：'US-ASCII', 'ISO-8859-1', 'UTF-8', 'UTF-16BE', 'UTF-16LE', 'UTF-16'，如果任一输入参数为NULL都将返回NULL

encode(string src, string charset)

1 返回值：binary

返回以逗号分隔的字符串中str出现的位置，如果参数str为逗号或查找失败将返回0，如果任一参数为NULL将返回NULL回

find_in_set(string str, string strList)

1 返回值：int

将数值X转换成"#,###,###.##"格式字符串，并保留d位小数，如果d为0，将进行四舍五入且不保留小数

format_number(number x, int d)

1 返回值：string

从指定路径上的JSON字符串抽取出JSON对象，并返回这个对象的JSON格式，如果输入的JSON是非法的将返回NULL,注意此路径上JSON字符串只能由数字字母下划线组成且不能有大写字母和特殊字符，且key不能由数字开头，这是由于Hive对列名的限制

get_json_object(string json_string, string path)

1 返回值：string

如果文件名为filename的文件中有一行数据与字符串str匹配成功就返回true

in_file(string str, string filename)

1 返回值：boolean

查找字符串str中子字符串substr出现的位置，如果查找失败将返回0，如果任一参数为Null将返回null，注意位置为从1开始的

instr(string str, string substr)

1 返回值：int

返回字符串的长度

length(string A)

1 返回值：int

查找字符串str中的pos位置后字符串substr第一次出现的位置

locate(string substr, string str[, int pos])

1 返回值：int

将字符串A的所有字母转换成小写字母

lower(string A) lcase(string A)

1 返回值：string

从左边开始对字符串str使用字符串pad填充，最终len长度为止，如果字符串str本身长度比len大的话，将去掉多余的部分

lpad(string str, int len, string pad)

1 返回值：string

去掉字符串A前面的空格

ltrim(string A)

1 返回值：string

返回出现次数TOP K的的子序列,n表示子序列的长度，具体看StatisticsAndDataMining (这里的解释更易懂)

ngrams(array<array<string>>, int N, int K, int pf)

1 返回值：array<struct<string,double>>

返回从URL中抽取指定部分的内容，参数url是URL字符串，而参数partToExtract是要抽取的部分，这个参数包含(HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, and USERINFO,例如：parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'HOST') ='facebook.com'，如果参数partToExtract值为QUERY则必须指定第三个参数key 如：parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'QUERY', 'k1') =‘v1’

parse_url(string urlString, string partToExtract [, string keyToExtract])

1 返回值：string

按照printf风格格式输出字符串

printf(String format, Obj... args)

1 返回值：string

抽取字符串subject中符合正则表达式pattern的第index个部分的子字符串，注意些预定义字符的使用，如第二个参数如果使用'\s'将被匹配到s,'\\s'才是匹配空格

regexp_extract(string subject, string pattern, int index)

1 返回值：string

按照Java正则表达式PATTERN将字符串INTIAL_STRING中符合条件的部分成REPLACEMENT所指定的字符串，如里REPLACEMENT这空的话，抽符合正则的部分将被去掉如：regexp_replace("foobar", "oo|ar", "") = 'fb.' 注意些预定义字符的使用，如第二个参数如果使用'\s'将被匹配到s,'\\s'才是匹配空格

regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)

1 返回值：string

重复输出n次字符串str

repeat(string str, int n)

1 返回值：
2 string

反转字符串

reverse(string A)

1 返回值：string

从右边开始对字符串str使用字符串pad填充，最终len长度为止，如果字符串str本身长度比len大的话，将去掉多余的部分

rpad(string str, int len, string pad)

1 返回值：string

去掉字符串后面出现的空格

rtrim(string A)

1 返回值：string

字符串str将被转换成单词数组，如：sentences('Hello there! How are you?') =( ("Hello", "there"), ("How", "are", "you") )

sentences(string str, string lang, string locale)

1 返回值：array<array<string>>

返回n个空格

space(int n)

返回值：string

按照正则表达式pat来分割字符串str,并将分割后的数组字符串的形式返回

split(string str, string pat)

1 返回值：string

将字符串str按照指定分隔符转换成Map，第一个参数是需要转换字符串，第二个参数是键值对之间的分隔符，默认为逗号;第三个参数是键值之间的分隔符，默认为"="

str_to_map(text[, delimiter1, delimiter2])

1 返回值：map<string,string>

对于字符串A,从start位置开始截取字符串并返回

substr(string|binary A, int start) substring(string|binary A, int start)

1 返回值：string

对于二进制/字符串A,从start位置开始截取长度为length的字符串并返回

substr(string|binary A, int start, int len) substring(string|binary A, int start, int len)

1 返回值：string

截取第count分隔符之前的字符串，如count为正则从左边开始截取，如果为负则从右边开始截取

substring_index(string A, string delim, int count)

1 返回值：string

将input出现在from中的字符串替换成to中的字符串如：translate("MOBIN","BIN","M")="MOM"

1 返回值：string

将64位的字符串转换二进制值

unbase64(string str)

1 返回值：binary

将字符串A中的字母转换成大写字母

upper(string A) ucase(string A)

1 返回值：string

将字符串A转换第一个字母大写其余字母的字符串

initcap(string A)

1 返回值：string

计算两个字符串之间的差异大小如：levenshtein('kitten', 'sitting') = 3

levenshtein(string A, string B)

1 返回值：int

将普通字符串转换成soundex字符串

soundex(string A)

1 返回值：string

7.字符串函数

分割字符串函数: split

语法: split(string str, string pat)

1 返回值:  array  
2 说明: 按照pat字符串分割str，会返回分割后的字符串数组  
3 举例：
4 hive> select split('abtcdtef','t');
5 OK
6 ["ab","cd","ef"]
7 Time taken: 0.118 seconds, Fetched: 1 row(s)

与GP，ORACLE不同，pad 不能默认

右补足函数：rpad

语法: rpad(string str, int len, string pad)

1 返回值: string  
2 说明：将str进行用pad进行右补足到len位  
3 举例：
4 hive> 
5     > select rpad('abc',10,'td');
6 OK
7 abctdtdtdt
8 Time taken: 0.077 seconds, Fetched: 1 row(s)

左补足函数：lpad

语法: lpad(string str, int len, string pad)

1 hive> 
2     > select rpad('abc',10,'td');
3 OK
4 abctdtdtdt
5 Time taken: 0.077 seconds, Fetched: 1 row(s)

首字符ascii函数：ascii

语法: ascii(string str)

1 返回值: int  
2 说明：返回字符串str第一个字符的ascii码  
3 举例：  hive>  select ascii('abcde');
4 OK
5 97
6 Time taken: 0.066 seconds, Fetched: 1 row(s)

重复字符串函数：repeat

语法: repeat(string str, int n)

1 返回值: string  
2 说明：返回重复n次后的str字符串  
3 举例： 
4  hive> select repeat('abc',5);
5 OK
6 abcabcabcabcabc
7 Time taken: 0.064 seconds, Fetched: 1 row(s)

空格字符串函数：space

语法: space(int n)

 1 返回值: string  
 2 说明：返回长度为n的字符串  
 3 举例：hive> select space(10);
 4 OK
 5           
 6 Time taken: 0.101 seconds, Fetched: 1 row(s)
 7 hive> select length(space(10));
 8 OK
 9 10
10 Time taken: 1.905 seconds, Fetched: 1 row(s)

字符串长度函数：length

1 语法: length(string A)  
2 返回值: int  
3 说明：返回字符串A的长度  
4 举例：hive> select length('abcedfg');
5 OK
6 7
7 Time taken: 0.065 seconds, Fetched: 1 row(s)

字符串反转函数：reverse

语法: reverse(string A)  
返回值: string  
说明：返回字符串A的反转结果  
举例：  hive> select reverse('abcedfg');
OK
gfdecba
Time taken: 0.077 seconds, Fetched: 1 row(s)

字符串连接函数：concat

1 语法: concat(string A, string B…)  
2 返回值: string  
3 说明：返回输入字符串连接后的结果，支持任意个输入字符串  
4 举例：hive>  select concat('abc','def','gh');
5 OK
6 abcdefgh
7 Time taken: 0.063 seconds, Fetched: 1 row(s)

带分隔符字符串连接函数：concat_ws

语法: concat_ws(string SEP, string A, string B…)  
返回值: string  
说明：返回输入字符串连接后的结果，SEP表示各个字符串间的分隔符  
举例：  hive> select concat_ws('-','abc','def','gh');
OK
abc-def-gh
Time taken: 0.06 seconds, Fetched: 1 row(s)

字符串截取函数：substr,substring

 1 语法: substr(string A, int start),substring(string A, int start)  
 2 返回值: string  
 3 说明：返回字符串A从start位置到结尾的字符串  
 4 举例： hive> select substr('abcde',3);
 5 OK
 6 cde
 7 Time taken: 0.062 seconds, Fetched: 1 row(s)
 8 hive> select substring('abcde',3);
 9 OK
10 cde
11 Time taken: 0.05 seconds, Fetched: 1 row(s)
12 hive> select substr('abcde',-1);
13 OK
14 e
15 Time taken: 0.061 seconds, Fetched: 1 row(s)

字符串截取函数：substr,substring

 1 语法: substr(string A, int start, int len),substring(string A, int start, int len)  
 2 返回值: string  
 3 说明：返回字符串A从start位置开始，长度为len的字符串  
 4 举例：
 5 hive>  select substr('abcde',3,2);
 6 OK
 7 cd
 8 Time taken: 0.07 seconds, Fetched: 1 row(s)
 9 hive> select substring('abcde',3,2);
10 OK
11 cd
12 Time taken: 0.062 seconds, Fetched: 1 row(s)
13 hive> select substring('abcde',-2,2);
14 OK
15 de
16 Time taken: 0.113 seconds, Fetched: 1 row(s)

字符串转大写函数：upper,ucase

 1 语法: upper(string A) ucase(string A)  
 2 返回值: string  
 3 说明：返回字符串A的大写格式  
 4 举例：hive> select upper('abSEd');
 5 OK
 6 ABSED
 7 Time taken: 0.059 seconds, Fetched: 1 row(s)
 8 hive> select ucase('abSEd');
 9 OK
10 ABSED
11 Time taken: 0.058 seconds, Fetched: 1 row(s)

字符串转小写函数：lower,lcase

 1 语法: lower(string A) lcase(string A)  
 2 返回值: string  
 3 说明：返回字符串A的小写格式  
 4 举例： 
 5 hive> select lower('abSEd');
 6 OK
 7 absed
 8 Time taken: 0.068 seconds, Fetched: 1 row(s)
 9 hive> select lcase('abSEd');
10 OK
11 absed
12 Time taken: 0.057 seconds, Fetched: 1 row(s)

去空格函数：trim

1 语法: trim(string A)  
2 返回值: string  
3 说明：去除字符串两边的空格  
4 举例：hive> select trim(' abc ');
5 OK
6 abc
7 Time taken: 0.058 seconds, Fetched: 1 row(s)

左边去空格函数：ltrim

1 语法: ltrim(string A)  
2 返回值: string  
3 说明：去除字符串左边的空格  
4 举例：  hive> select ltrim(' abc ');
5 OK
6 abc 
7 Time taken: 0.059 seconds, Fetched: 1 row(s)

右边去空格函数：rtrim

1 语法: rtrim(string A)  
2 返回值: string  
3 说明：去除字符串右边的空格  
4 举例：hive> select rtrim(' abc ');
5 OK
6  abc
7 Time taken: 0.058 seconds, Fetched: 1 row(s)

正则表达式解析函数：regexp_extract

其中的index，是按照正则字符串（）的位置

 1 语法: regexp_extract(string subject, string pattern, int index)  
 2 返回值: string  
 3 说明：将字符串subject按照pattern正则表达式的规则拆分，返回index指定的字符。注意，在有些情况下要使用转义字符  
 4 举例： 
 5  hive> select regexp_extract('foothebar', 'foo(.*?)(bar)', 1);
 6 OK
 7 the
 8 Time taken: 0.389 seconds, Fetched: 1 row(s)
 9 hive> select regexp_extract('foothebar', 'foo(.*?)(bar)', 2);
10 OK
11 bar
12 Time taken: 0.051 seconds, Fetched: 1 row(s)
13 hive>  select regexp_extract('foothebar', 'foo(.*?)(bar)', 0);
14 OK
15 foothebar
16 Time taken: 0.058 seconds, Fetched: 1 row(s)

函数parse_url,解析URL字符串

 1 parse_url(url, partToExtract[, key]) - extracts a part from a URL  
 2 解析URL字符串，partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]。 
 3 举例：
 4 hive> select parse_url('http://facebook.com/path/p1.php?query=1', 'HOST') ;
 5 OK
 6 facebook.com
 7 Time taken: 0.286 seconds, Fetched: 1 row(s)
 8 hive> select parse_url('http://facebook.com/path/p1.php?query=1', 'PATH');
 9 OK
10 /path/p1.php
11 Time taken: 0.069 seconds, Fetched: 1 row(s)
12 hive> select parse_url('http://facebook.com/path/p1.php?query=1', 'QUERY');
13 OK
14 query=1
15 可以指定key来返回特定参数，例如 
16 Time taken: 0.21 seconds, Fetched: 1 row(s)
17 hive> select parse_url('http://facebook.com/path/p1.php?query=1', 'QUERY','query');
18 OK
19 1
20 Time taken: 0.057 seconds, Fetched: 1 row(s)
21 hive> select parse_url('http://facebook.com/path/p1.php?query=1#Ref', 'REF');
22 OK
23 Ref
24 Time taken: 0.055 seconds, Fetched: 1 row(s)
25 hive> select parse_url('http://facebook.com/path/p1.php?query=1#Ref', 'PROTOCOL');
26 OK
27 http
28 Time taken: 0.06 seconds, Fetched: 1 row(s)

1 hive> select parse_url_tuple('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'QUERY:k1', 'QUERY:k2'); 
2 OK
3 v1      v2
4 Time taken: 0.2 seconds, Fetched: 1 row(s)

json解析函数：get_json_object

语法: get_json_object(string json_string, string path)

 1 返回值: string  
 2 说明：解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效，那么返回NULL。  
 3 举例： hive> select get_json_object('{"store":{"fruit":\[{"weight":8,"type":"apple"},{"weight":9,"type":"pear"}],"bicycle":{"price":19.95,"color":"red"} }, "email":"amy@only_for_json_udf_test.net","owner":"amy"}','$.store'); 
 4 OK
 5 {"fruit":[{"weight":8,"type":"apple"},{"weight":9,"type":"pear"}],"bicycle":{"price":19.95,"color":"red"}}
 6 Time taken: 0.108 seconds, Fetched: 1 row(s)
 7 
 8 hive> select get_json_object('{"store":{"fruit":\[{"weight":8,"type":"apple"},{"weight":9,"type":"pear"}],"bicycle":{"price":19.95,"color":"red"} }, "email":"amy@only_for_json_udf_test.net","owner":"amy"}','$.email'); 
 9 OK
10 amy@only_for_json_udf_test.net
11 
12 hive> select get_json_object('{"store":{"fruit":\[{"weight":8,"type":"apple"},{"weight":9,"type":"pear"}],"bicycle":{"price":19.95,"color":"red"} }, "email":"amy@only_for_json_udf_test.net","owner":"amy"}','$.owner'); 
13 OK
14 amy
15 Time taken: 0.499 seconds, Fetched: 1 row(s)

行转列：explode （posexplode Available as of Hive 0.13.0）

 1 说明：将输入的一行数组或者map转换成列输出
 2 语法：explode(array (or map))
 3 举例：
 4 
 5 hive> select explode(split(concat_ws('-','1','2','3','4','5','6','7','8','9'),'-'));  
 6 OK
 7 1
 8 2
 9 3
10 4
11 5
12 6
13 7
14 8
15 9
16 Time taken: 0.095 seconds, Fetched: 9 row(s)

二.集合函数

集合查找函数: find_in_set

语法: find_in_set(string str, string strList)

返回值: int  
说明: 返回str在strlist第一次出现的位置，strlist是用逗号分割的字符串。如果没有找该str字符，则返回0  
举例： hive> select find_in_set('ab','ef,ab,de');
OK
2
Time taken: 2.336 seconds, Fetched: 1 row(s)
hive> select find_in_set('at','ef,ab,de');
OK
0
Time taken: 0.094 seconds, Fetched: 1 row(s)

hive提供了复合数据类型：

Structs： structs内部的数据可以通过DOT（.）来存取，例如，表中一列c的类型为STRUCT{a INT; b INT}，我们可以通过c.a来访问域a

Maps（K-V对）：访问指定域可以通过["指定域名称"]进行，例如，一个Map M包含了一个group-》gid的kv对，gid的值可以通过M[' group']来获取

Arrays：array中的数据为相同类型，例如，假如array A中元素['a','b','c']，则A[1]的值为'b'

Struct使用

create table qa_test.student_test(id INT, info struct<name:STRING, age:INT>)  
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
COLLECTION ITEMS TERMINATED BY ':';

hive> desc qa_test.student_test;
OK
id                      int
info                    struct<name:string,age:int>
Time taken: 0.048 seconds, Fetched: 2 row(s)


$cat test5.txt
1,zhou:30
2,yan:30
3,chen:20
4,li:80


LOAD DATA LOCAL INPATH '/home/hadoop/test/test5' INTO TABLE qa_test.student_test;

hive> select  *  from qa_test.student_test;
OK
1       {"name":"zhou","age":30}
2       {"name":"yan","age":30}
3       {"name":"chen","age":20}
4       {"name":"li","age":80}


hive> select info.age from qa_test.student_test;
OK
30
30
20
80
Time taken: 0.234 seconds, Fetched: 4 row(s)
hive> select info.name from qa_test.student_test;
OK
zhou
yan
chen
li
Time taken: 0.08 seconds, Fetched: 4 row(s)
Array使用

create table qa_test.class_test(name string, student_id_list array<INT>)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
COLLECTION ITEMS TERMINATED BY ':';

hive>desc qa_test.class_test;
OK
name                    string
student_id_list         array<int>
Time taken: 0.052 seconds, Fetched: 2 row(s)

$ cat test6.txt   
034,1:2:3:4
035,5:6
036,7:8:9:10

LOAD DATA LOCAL INPATH '/home/hadoop/test/test6' INTO TABLE qa_test.class_test;

hive> select * from qa_test.class_test;
OK
034     [1,2,3,4]
035     [5,6]
036     [7,8,9,10]
Time taken: 0.076 seconds, Fetched: 3 row(s)

select student_id_list[3] from qa_test.class_test;

hive> select student_id_list[3] from qa_test.class_test;
OK
4
NULL
10
Time taken: 0.12 seconds, Fetched: 3 row(s)

hive> select size(student_id_list) from qa_test.class_test;
OK
4
2
4
Time taken: 0.086 seconds, Fetched: 3 row(s)


hive> select array_contains(student_id_list,4) from qa_test.class_test;
OK
true
false
false
Time taken: 0.129 seconds, Fetched: 3 row(s)

hive> 
   > select   sort_array(student_id_list) from qa_test.class_test;
OK
[1,2,3,4]
[5,6]
[7,8,9,10]
Time taken: 0.085 seconds, Fetched: 3 row(s)
Map使用

create table qa_test.employee(id string, perf map<string, int>)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':';


$ cat test7.txt
1    job:80,team:60,person:70
2    job:60,team:80
3    job:90,team:70,person:100

LOAD DATA LOCAL INPATH '/home/hadoop/test/test7' INTO TABLE qa_test.employee;

hive> select * from qa_test.employee;
OK
1       {"job":80,"team":60,"person":70}
2       {"job":60,"team":80}
3       {"job":90,"team":70,"person":100}
Time taken: 0.075 seconds, Fetched: 3 row(s)

hive> select perf['job'] from qa_test.employee where perf['job'] is not null;   
OK
80
60
90
Time taken: 0.096 seconds, Fetched: 3 row(s)

hive> select size(perf) from qa_test.employee;   
OK
3
2
3
Time taken: 0.091 seconds, Fetched: 3 row(s)

hive> select map_keys(perf) from qa_test.employee;   
OK
["job","team","person"]
["job","team"]
["job","team","person"]
Time taken: 0.136 seconds, Fetched: 3 row(s)

hive> select map_values(perf) from qa_test.employee;   
OK
[80,60,70]
[60,80]
[90,70,100]
Time taken: 0.077 seconds, Fetched: 3 row(s)
求map的长度 size(Map<K.V>)

返回值：int
hive> select size(perf) from qa_test.employee;   
OK
3
2
3
Time taken: 0.091 seconds, Fetched: 3 row(s)
求数组的长度 size(Array<T>)

返回值：int
hive> select size(student_id_list) from qa_test.class_test;
OK
4
2
4
Time taken: 0.086 seconds, Fetched: 3 row(s)
返回map中的所有key
map_keys(Map<K.V>)

返回值：array<K>
hive> select map_keys(perf) from qa_test.employee;   
OK
["job","team","person"]
["job","team"]
["job","team","person"]
Time taken: 0.136 seconds, Fetched: 3 row(s)
返回map中的所有value map_values(Map<K.V>)

返回值：array<V>
hive> select map_values(perf) from qa_test.employee;   
OK
[80,60,70]
[60,80]
[90,70,100]
Time taken: 0.077 seconds, Fetched: 3 row(s)
如该数组Array<T>包含value返回true。，否则返回false array_contains(Array<T>, value)

返回值：boolean
hive> select array_contains(student_id_list,4) from qa_test.class_test;
OK
true
false
false
Time taken: 0.129 seconds, Fetched: 3 row(s)
按自然顺序对数组进行排序并返回 sort_array(Array<T>)

返回值：array
hive> select   sort_array(student_id_list) from qa_test.class_test;
OK
[1,2,3,4]
[5,6]
[7,8,9,10]
Time taken: 0.085 seconds, Fetched: 3 row(s)
 

二.聚合函数

统计总行数，包括含有NULL值的行 count(*)

统计提供非NULL的expr表达式值的行数 count(expr)

统计提供非NULL且去重后的expr表达式值的行数 count(DISTINCT expr[, expr])

1 返回值：BIGINT

sum(col),表示求指定列的和，sum(DISTINCT col)表示求去重后的列的和

1 返回值：DOUBLE

avg(col),表示求指定列的平均值，avg(DISTINCT col)表示求去重后的列的平均值

1 返回值：DOUBLE

求指定列的最小值 min(col)

1 返回值：DOUBLE

求指定列的最大值 max(col)

1 返回值：DOUBLE

求指定列数值的方差 variance(col), var_pop(col)

1 返回值：DOUBLE

求指定列数值的样本方差

var_samp(col)

1 返回值：DOUBLE

求指定列数值的标准偏差

stddev_pop(col)

1 返回值：DOUBLE

求指定列数值的样本标准偏差

stddev_samp(col)

1 返回值：DOUBLE

求指定列数值的协方差 covar_pop(col1, col2)

1 返回值：DOUBLE

求指定列数值的样本协方差 covar_samp(col1, col2)

1 返回值：DOUBLE

返回两列数值的相关系数 corr(col1, col2)

1 返回值：DOUBLE

返回col的p%分位数 percentile(BIGINT col, p)

1 返回值：DOUBLE

三.特殊函数

窗口函数

分析函数

混合函数

UDTF

多行转换：lateral view

说明：lateral view用于和json_tuple，parse_url_tuple，split, explode等UDTF一起使用，它能够将一行数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。
举例：

 1 说明：lateral view用于和json_tuple，parse_url_tuple，split, explode等UDTF一起使用，它能够将一行数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。
 2 举例：
 3 
 4     hive> select s.x,sp from test.dual s lateral view explode(split(concat_ws(',','1','2','3','4','5','6','7','8','9'),',')) t as sp;  
 5     x sp  
 6     a 1  
 7     b 2  
 8     a 3  
 9 解释一下，from后面是你的表名，在表名后面加lateral view explode。。。（你的行转列sql） ，还必须要起一个别名，我这个字段的别名为sp。然后再看看select后面的 s.*，就是原表的字段，我这里面只有一个字段，且为X
10 
11 多个lateral view的sql类如：
12 
13     SELECT * FROM exampleTable LATERAL VIEW explode(col1) myTable1 AS myCol1 LATERAL VIEW explode(myCol1) myTable2 AS myCol2;

抽取一行数据转换到新表的多列样例：

http_referer是获取的带参数请求路径，其中非法字符用\做了转义，根据路径解析出地址，查询条件等存入新表中，

 1 drop table if exists t_ods_tmp_referurl;  
 2 create table t_ ods _tmp_referurl as  
 3 SELECT a.*,b.*  
 4 FROM ods_origin_weblog a LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST', 'PATH','QUERY', 'QUERY:id') b as host, path, query, query_id; 
 5 
 6 复制表，并将时间截取到日：
 7 drop table if exists t_ods_tmp_detail;  
 8 create table t_ods_tmp_detail as   
 9 select b.*,substring(time_local,0,10) as daystr,  
10 substring(time_local,11) as tmstr,  
11 substring(time_local,5,2) as month,  
12 substring(time_local,8,2) as day,  
13 substring(time_local,11,2) as hour  
14 From t_ ods _tmp_referurl b;

表生成函数

对于a中的每个元素，将生成一行且包含该元素

explode(array<TYPE> a)

1 返回值：Array Type

每行对应数组中的一个元素 explode(ARRAY)

1 返回值：N rows

每行对应每个map键-值，其中一个字段是map的键，另一个字段是map的值

explode(MAP)

1 返回值：N rows

explode类似，不同的是还返回各元素在数组中的位置

posexplode(ARRAY)

1 返回值：N rows

把M列转换成N行，每行有M/N个字段，其中n必须是个常数

stack(INT n, v_1, v_2, ..., v_k)

1 返回值：N rows

从一个JSON字符串中获取多个键并作为一个元组返回，与get_json_object不同的是此函数能一次获取多个键值

json_tuple(jsonStr, k1, k2, ...)

1 返回值：tuple

返回从URL中抽取指定N部分的内容，参数url是URL字符串，而参数p1,p2,....是要抽取的部分，这个参数包含HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, USERINFO, QUERY:<KEY>

1 返回值；tuple

将结构体数组提取出来并插入到表中 inline(ARRAY<STRUCT[,STRUCT]>)

posted on 2017-02-09 10:08 为尊严而奋斗阅读(84777) 评论(0) 收藏举报

刷新页面返回顶部