案例说明flink的udf

本文会主要讲三种udf：

用户自定义函数是非常重要的一个特征，因为他极大地扩展了查询的表达能力。本文除了介绍这三种udf之外，最后会介绍一个redis作为交互数据源的udf案例。

注册用户自定义函数

在大多数场景下，用户自定义函数在使用之前是必须要注册的。对于Scala的Table API，udf是不需要注册的。

调用TableEnvironment的registerFunction()方法来实现注册。Udf注册成功之后，会被插入TableEnvironment的function catalog，这样table API和sql就能解析他了。

Scalar Functions 标量函数

标量函数，是指返回一个值的函数。标量函数是实现将0，1，或者多个标量值转化为一个新值。

实现一个标量函数需要继承ScalarFunction，并且实现一个或者多个evaluation方法。标量函数的行为就是通过evaluation方法来实现的。evaluation方法必须定义为public，命名为eval。evaluation方法的输入参数类型和返回值类型决定着标量函数的输入参数类型和返回值类型。evaluation方法也可以被重载实现多个eval。同时evaluation方法支持变参数，例如：eval(String... strs)。

下面给出一个标量函数的例子。例子实现的是一个hashcode方法。

{
factor=;
{
? ? .factor=factor;
}
{
? ? s.hashCode() * factor;
}
}
BatchTableEnvironment tableEnv=TableEnvironment.getTableEnvironment(env);

tableEnv.registerFunction(, HashCode());

myTable.select();

tableEnv.sqlQuery();

默认情况下evaluation方法的返回值类型是由flink类型抽取工具决定。对于基础类型及简单的POJOS是足够的，但是更复杂的类型，自定义类型，组合类型，会报错。这种情况下，返回值类型的TypeInformation，需要手动指定，方法是重载ScalarFunction#getResultType()。

下面给一个例子，通过复写ScalarFunction#getResultType()，将long型的返回值在代码生成的时候翻译成Types.TIMESTAMP。

{
long (long t) {
? t % ;
}
TypeInformation> getResultType(signature: {
? Types.TIMESTAMP;
}
}

Table Functions 表函数

与标量函数相似之处是输入可以0，1，或者多个参数，但是不同之处可以输出任意数目的行数。返回的行也可以包含一个或者多个列。

为了自定义表函数，需要继承TableFunction，实现一个或者多个evaluation方法。表函数的行为定义在这些evaluation方法内部，函数名为eval并且必须是public。TableFunction可以重载多个eval方法。Evaluation方法的输入参数类型，决定着表函数的输入类型。Evaluation方法也支持变参，例如：eval(String... strs)。返回表的类型取决于TableFunction的基本类型。Evaluation方法使用collect(T)发射输出rows。

在Table API中，表函数在scala语言中使用方法如下：.join(Expression) 或者 .leftOuterJoin(Expression)，在java语言中使用方法如下：.join(String) 或者.leftOuterJoin(String)。

Join操作算子会使用表函数(操作算子右边的表)产生的所有行进行(cross) join 外部表(操作算子左边的表)的每一行。

leftOuterJoin操作算子会使用表函数(操作算子右边的表)产生的所有行进行(cross) join 外部表(操作算子左边的表)的每一行，并且在表函数返回一个空表的情况下会保留所有的outer rows。

在sql语法中稍微有点区别：

下面的例子讲的是如何使用表值函数。

Split TableFunction<Tuple2<, Integer>> {

? separator=;
? Split( separator) {
? ? ? .separator=separator;
? }
? ( str) {
? ? ? ( s : str.split(separator)) {
? ? ? ? ?
? ? ? ? ? collect( Tuple2<, Integer>(s, s.length()));
? ? ? }
? }
}
BatchTableEnvironment tableEnv=TableEnvironment.getTableEnvironment(env);
Table myTable=... ? ? ? ?

tableEnv.registerFunction(, Split());

myTable.join().select();

myTable.leftOuterJoin().select();

tableEnv.sqlQuery();

tableEnv.sqlQuery();

需要注意的是PROJO类型不需要一个确定的字段顺序。意味着你不能使用as修改表函数返回的pojo的字段的名字。

默认情况下TableFunction返回值类型是由flink类型抽取工具决定。对于基础类型及简单的POJOS是足够的，但是更复杂的类型，自定义类型，组合类型，会报错。这种情况下，返回值类型的TypeInformation，需要手动指定，方法是重载TableFunction#getResultType()。

下面的例子，我们通过复写TableFunction#getResultType()方法使得表返回类型是RowTypeInfo(String, Integer)。

{
? {
? ? ? (String s : str.split()) {
? ? ? ? ? Row row= Row();
? ? ? ? ? row.setField(, s);
? ? ? ? ? row.setField(, s.length);
? ? ? ? ? collect(row);
? ? ? }
? }
?
? {
? ? ? Types.ROW(Types.STRING(), Types.INT());
? }
}

Aggregation Functions 聚合函数

用户自定义聚合函数聚合一张表(一行或者多行，一行有一个或者多个属性)为一个标量的值。

上图中是讲的一张饮料的表这个表有是那个字段五行数据，现在要做的是求出所有饮料的最高价。

聚合函数需要继承AggregateFunction。聚合函数工作方式如下：

首先，需要一个accumulator，这个是保存聚合中间结果的数据结构。调用AggregateFunction函数的createAccumulator()方法来创建一个空accumulator.

随后，每个输入行都会调用accumulate()方法来更新accumulator。一旦所有的行被处理了，getValue()方法就会被调用，计算和返回最终的结果。

对于每个AggregateFunction，下面三个方法都是比不可少的：

flink的类型抽取机制不能识别复杂的数据类型，比如，数据类型不是基础类型或者简单的pojos类型。所以，类似于ScalarFunction 和TableFunction，AggregateFunction提供了方法去指定返回结果类型的TypeInformation，用的是AggregateFunction#getResultType()。Accumulator类型用的是AggregateFunction#getAccumulatorType()。

除了上面的方法，还有一些可选的方法。有些方法是让系统更加高效的执行查询，另外的一些在特定的场景下是必须的。例如，merge()方法在会话组窗口（session group window）上下文中是必须的。当一行数据是被视为跟两个回话窗口相关的时候，两个会话窗口的accumulators需要被join。

AggregateFunction的下面几个方法，根据使用场景的不同需要被实现：

AggregateFunction的所有方法都是需要被声明为public，而不是static。定义聚合函数需要实现org.apache.flink.table.functions.AggregateFunction同时需要实现一个或者多个accumulate方法。该方法可以被重载为不同的数据类型，并且支持变参。

在这里就不贴出来AggregateFunction的源码了。

下面举个求加权平均的栗子

为了计算加权平均值，累加器需要存储已累积的所有数据的加权和及计数。在栗子中定义一个WeightedAvgAccum类作为accumulator。尽管，retract(), merge(), 和resetAccumulator()方法在很多聚合类型是不需要的，这里也给出了栗子。

{
? sum=;
? count=;
}

{
?
? {
? WeightedAvgAccum();
? }
?
? {
? ? ? (acc.count==) {
? ? ? ? ? ;
? ? ? } {
? ? ? ? ? acc.sum / acc.count;
? ? ? }
? }
? {
? ? ? acc.sum +=iValue * iWeight;
? ? ? acc.count +=iWeight;
? }
? {
? ? ? acc.sum -=iValue * iWeight;
? ? ? acc.count -=iWeight;
? }
? {
? ? ? Iterator<WeightedAvgAccum> iter=it.iterator();
? ? ? (iter.hasNext()) {
? ? ? ? ? WeightedAvgAccum a=iter.next();
? ? ? ? ? acc.count +=a.count;
? ? ? ? ? acc.sum +=a.sum;
? ? ? }
? }
? {
? ? ? acc.count=;
? ? ? acc.sum=;
? }
}

StreamTableEnvironment tEnv=...
tEnv.registerFunction(, WeightedAvg());

tEnv.sqlQuery();

udf的最佳实践经验

Table API和SQL 代码生成器内部会尽可能多的尝试使用原生值。用户定义的函数可能通过对象创建、强制转换(casting)和拆装箱((un)boxing)引入大量开销。因此，强烈推荐参数和返回值的类型定义为原生类型而不是他们包装类型(boxing class)。Types.DATE 和Types.TIME可以用int代替。Types.TIMESTAMP可以用long代替。

我们建议用户自定义函数使用java编写而不是scala编写，因为scala的类型可能会有不被flink类型抽取器兼容。

用Runtime集成UDFs

有时候udf需要获取全局runtime信息或者在进行实际工作之前做一些设置和清除工作，比如，打开数据库链接和关闭数据库链接。Udf提供了open()和close()方法，可以被复写，功能类似Dataset和DataStream API的RichFunction方法。

Open()方法是在evaluation方法调用前调用一次。海外实习Close()是在evaluation方法最后一次调用后调用。

Open()方法提共一个FunctionContext，FunctionContext包含了udf执行环境的上下文，比如，metric group，分布式缓存文件，全局的job参数。

通过调用FunctionContext的相关方法，可以获取到相关的信息：

下面，给出的例子就是通过FunctionContext在一个标量函数中获取全局job的参数。主要是实现获取redis的配置，然后简历redis链接，实现redis的交互的过程。

org.apache.flink.table.functions.FunctionContext;
org.apache.flink.table.functions.ScalarFunction;
redis.clients.jedis.Jedis;
{
? factor=;
? Jedis jedis=;
? {
? ? ? ();
? }
?
? {
? ? ? .open(context);
? ? ? String redisHost=context.getJobParameter(,);
? ? ? redisPort=Integer.valueOf(context.getJobParameter(,));
? ? ? jedis= Jedis(redisHost,redisPort);
? }

?
? {
? ? ? .close();
? ? ? jedis.close();
? }

? {
? ? ? .factor=factor;
? }

? {
? ? ? s=s % ;
? ? ? (s==)
? ? ? ? ? Integer.valueOf(jedis.get(String.valueOf(s)));
? ? ?
? ? ? ? ? ;
? }
}

ExecutionEnvironment env=ExecutionEnvironment.getExecutionEnvironment();
BatchTableEnvironment tableEnv=TableEnvironment.getTableEnvironment(env);

Map<String,String> hashmap= HashMap<>();
? ? ? ?hashmap.put(,);
? ? ? ?hashmap.put(,);
? ? ? ?ParameterTool parameter=ParameterTool.fromMap(hashmap);
? ? ? ?exeEnv.getConfig().setGlobalJobParameters(parameter);

tableEnv.registerFunction(, HashCode());

myTable.select();

tableEnv.sqlQuery();

文章来源：https://blog.csdn.net/rlnLo2pNEfx9c/article/details/81199342

posted @ 2018-09-12 11:04 马竹君阅读(1485) 评论(0) 收藏举报

刷新页面返回顶部

马竹君

案例说明flink的udf

公告