Hive详解(04) - hive函数的使用

Hive详解(04) - hive函数的使用

系统内置函数

查看系统自带的函数

hive> show functions;

显示自带的函数的用法

hive> desc function upper;

详细显示自带的函数的用法

hive> desc function extended upper;

常用内置函数

空字段赋值

函数说明：NVL：给值为NULL的数据赋值，它的格式是NVL( value，default_value)。它的功能是如果value为NULL，则NVL函数返回default_value的值，否则返回value的值，如果两个参数都为NULL ，则返回NULL。

数据准备：采用员工表

查询：如果员工的comm为NULL，则用-1代替

hive (default)> select comm,nvl(comm, -1) from emp;

查询：如果员工的comm为NULL，则用领导id代替

hive (default)> select comm, nvl(comm,mgr) from emp;

CASE WHEN THEN ELSE END

数据准备

name	dept_id	sex
悟空	A	男
大海	A	男
宋宋	B	男
凤姐	A	女
婷姐	B	女
婷婷	B	女

创建本地emp_sex.txt，导入数据

[hadoop@hadoop102 datas]$ vi emp_sex.txt

create table emp_sex(

name string,

dept_id string,

sex string)

row format delimited fields terminated by "\t";

load data local inpath '/opt/module/hive/datas/emp_sex.txt' into table emp_sex;

按需求查询数据

select

dept_id,

sum(case sex when '男' then 1 else 0 end) male_count,

sum(case sex when '女' then 1 else 0 end) female_count

行转列

函数说明：

CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串;

CONCAT_WS(separator, str1, str2,...)：它是一个特殊形式的 CONCAT()。第一个参数为剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;

注意: CONCAT_WS must be "string or array<string>

COLLECT_SET(col)：函数只接受基本数据类型，它的主要作用是将某字段的值进行去重汇总，产生array类型字段。

数据准备

name constellation blood_type

创建本地constellation.txt，导入数据

[hadoop@hadoop102 datas]$ vim person_info.txt

把星座和血型一样的人归类到一起。结果如下：

create table person_info(

name string,

constellation string,

blood_type string)

row format delimited fields terminated by "\t";

load data local inpath "/opt/module/hive/datas/person_info.txt" into table person_info;

按需求查询数据

SELECT t1.c_b , CONCAT_WS("|",collect_set(t1.name))

FROM (

SELECT NAME ,CONCAT_WS(',',constellation,blood_type) c_b

FROM person_info

)t1

GROUP BY t1.c_b

列转行

函数说明：

EXPLODE(col)：将hive一列中复杂的array或者map结构拆分成多行。

LATERAL VIEW：LATERAL VIEW udtf(expression) tableAlias AS columnAlias，用于和split, explode等UDTF一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。

数据准备

movie category

《疑犯追踪》悬疑,动作,科幻,剧情

《Lie to me》悬疑,警匪,动作,心理,剧情

《战狼2》战争,动作,灾难

创建本地movie.txt，导入数据

[hadoop@hadoop102 datas]$ vi movie_info.txt

《疑犯追踪》悬疑,动作,科幻,剧情

《Lie to me》悬疑,警匪,动作,心理,剧情

create table movie_info(

movie string,

category string)

row format delimited fields terminated by "\t";

load data local inpath "/opt/module/hive/datas/movie_info.txt" into table movie_info;

按需求查询数据

SELECT movie,category_name

FROM movie_info

lateral VIEW

explode(split(category,",")) movie_info_tmp AS category_name ;

窗口函数（开窗函数）

Rank

函数说明

RANK() ：排序相同时会重复，总数不会变

DENSE_RANK() ：排序相同时会重复，总数会减少

ROW_NUMBER() ：会根据顺序计算

[hadoop@hadoop102 datas]$ vi score.txt

row format delimited fields terminated by "\t";

load data local inpath '/opt/module/hive/datas/score.txt' into table score;

rank() over(partition by subject order by score desc) rp,

dense_rank() over(partition by subject order by score desc) drp,

row_number() over(partition by subject order by score desc) rmp

from score;

name subject score rp drp rmp

其他常用函数

自定义函数

自定义函数简介

Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。

当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。

根据用户自定义函数类别分为以下三种：

（1）UDF（User-Defined-Function）

一进一出

（2）UDAF（User-Defined Aggregation Function）

聚集函数，多进一出

类似于：count/max/min

（3）UDTF（User-Defined Table-Generating Functions）

一进多出

如lateral view explode()

官方文档地址

https://cwiki.apache.org/confluence/display/Hive/HivePlugins

编程步骤：

继承Hive提供的类

org.apache.hadoop.hive.ql.udf.generic.GenericUDF

org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

实现类中的抽象方法

在hive的命令行窗口创建函数

添加jar

add jar linux_jar_path

创建function

create [temporary] function [dbname.]function_name AS class_name;

在hive的命令行窗口删除函数

drop [temporary] function [if exists] [dbname.]function_name;

自定义UDF函数

需求:

自定义一个UDF实现计算给定字符串的长度，例如：

hive(default)> select my_len("abcd");

1）创建一个Maven工程Hive

2）导入依赖

<groupId>org.apache.hive</groupId>

</dependency>

3）创建一个类

package com.zhangjk.hive;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;

import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException;

import org.apache.hadoop.hive.ql.metadata.HiveException;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

/**

* 自定义UDF函数，需要继承GenericUDF类

* 需求: 计算指定字符串的长度

public class MyStringLength extends GenericUDF {

/**

* @param arguments 输入参数类型的鉴别器对象

* @return 返回值类型的鉴别器对象

* @throws UDFArgumentException

@Override

public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {

// 判断输入参数的个数

if(arguments.length !=1){

throw new UDFArgumentLengthException("Input Args Length Error!!!");

}

// 判断输入参数的类型

if(!arguments[0].getCategory().equals(ObjectInspector.Category.PRIMITIVE)){

throw new UDFArgumentTypeException(0,"Input Args Type Error!!!");

}

//函数本身返回值为int，需要返回int类型的鉴别器对象

return PrimitiveObjectInspectorFactory.javaIntObjectInspector;

}

/**

* 函数的逻辑处理

* @param arguments 输入的参数

* @return 返回值

* @throws HiveException

@Override

public Object evaluate(DeferredObject[] arguments) throws HiveException {

if(arguments[0].get() == null){

return 0 ;

}

return arguments[0].get().toString().length();

}

@Override

public String getDisplayString(String[] children) {

return "";

}

4）打成jar包上传到服务器/opt/module/hive/datas/myudf.jar

5）将jar包添加到hive的classpath

hive (default)> add jar /opt/module/hive/myudf.jar;

6）创建临时函数与开发好的java class关联

hive (default)> create temporary function my_len as "com.zhangjk.hive.MyStringLength";

7）即可在hql中使用自定义的函数

hive (default)> select my_len("hello");

_c0

自定义UDTF函数

需求

自定义一个UDTF实现将一个任意分割符的字符串切割成独立的单词，例如：

hive(default)> select myudtf("hello,world,hadoop,hive", ",");

package com.zhangjk.hive;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

import org.apache.hadoop.hive.ql.metadata.HiveException;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;

import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

import java.util.ArrayList;

import java.util.List;

public class MyUDTF extends GenericUDTF {

private ArrayList<String> outList = new ArrayList<>();

@Override

public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {

//1.定义输出数据的列名和类型

List<String> fieldNames = new ArrayList<>();

List<ObjectInspector> fieldOIs = new ArrayList<>();

//2.添加输出数据的列名和类型

fieldNames.add("lineToWord");

fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);

}

@Override

public void process(Object[] args) throws HiveException {

//1.获取原始数据

String arg = args[0].toString();

//2.获取数据传入的第二个参数，此处为分隔符

String splitKey = args[1].toString();

//3.将原始数据按照传入的分隔符进行切分

String[] fields = arg.split(splitKey);

//4.遍历切分后的结果，并写出

for (String field : fields) {

public void close() throws HiveException {

}

2）打成jar包上传到服务器/opt/module/hive/data/myudtf.jar

3）将jar包添加到hive的classpath下

hive (default)> add jar /opt/module/hive/myudtf.jar;

4）创建临时函数与开发好的java class关联

hive (default)> create temporary function myudtf as "com.atguigu.hive.MyUDTF";

5）使用自定义的函数

hive (default)> select myudtf("hello,word,hadoop,hive", ",");

Time taken: 0.173 seconds, Fetched: 4 row(s)

posted @ 2022-01-14 18:05 莲藕淹阅读(477) 评论(0) 收藏举报

刷新页面返回顶部

莲藕淹

野芳幽香佳木繁阴风霜高洁水落石出

Hive详解(04) - hive函数的使用

系统内置函数

常用内置函数

空字段赋值

CASE WHEN THEN ELSE END

行转列

列转行

窗口函数（开窗函数）

Rank

其他常用函数

常用日期函数

常用取整函数

常用字符串操作函数

集合操作

多维分析

自定义函数

自定义函数简介

自定义UDF函数

自定义UDTF函数

公告

野芳幽香 佳木繁阴 风霜高洁 水落石出

系统内置函数

常用内置函数

空字段赋值

公告

野芳幽香佳木繁阴风霜高洁水落石出