如何跑通第一个 SQL 作业

简介：本文由阿里巴巴技术专家周凯波（宝牛）分享，主要介绍如何跑通第一个SQL。

一、SQL的基本概念

1.SQL 分类

SQL分为四类，分别是数据查询语言（DQL）、数据操纵语言（DML）、数据定义（DDL）语言和数据控制语言（DCL）。今天将介绍前三种语言的使用。

接下来介绍几个基本概念。

2.SQL 开发

● Scripts，即SQL文本。在SQL文本里面可以写上文介绍的前三种语言；
● Schema，即元数据。SQL里面需要使用的表和函数，是通过Schema进行定义的；
● Artifacts，即UDF Jar包；

3.Catalog

在 Flink SQL里，Catalog是管理元数据的。Catalog通过Catalog.DB.Table来定位一张表。除了DB和Table，Catalog还能注册函数，如UDF、UDTF和UDAF。

在Flink Catalog里，有三种Catalog实现：

● 第一个是GenericInMemoryCatalog，是内存版的Catalog。平常在使用 Flink SQL的时候，默认是内存版的Catalog。当程序运行结束，第二次重新运行的时候，会重新生成一个Catalog实例。
● 第二个是HiveCatalog，Flink里比较好的支持了HiveCatalog，可以从Hive HMS里读取元数据，同时也可以往Hive里注册表，写数据到Hive里面去。
● 第三个Catalog是 VVP平台里面开发的Catalog，即VvpCatalog，它实现了Flink Catalog的接口，底层是使用的数据库。

4.Deployment

Deployment是一个作业的描述，目前有两种任务类型，JAR和SQL。

Deployment上有升级策略（Upgrade strategy）和恢复策略（Restore strategy）。Upgrade strategy是指Deployment运行后，用户可以对Deployment的参数进行修改，这个修改如何影响Deployment的运行就是由不同的升级策略决定的；Restore strategy 指启动 Flink任务时，是否从 Savepoint/Checkpoint进行恢复就是不同的恢复策略。

Flink的版本和配置，常用的Flink的参数都可以在这里进行配置。例如：Task Managers 数量，Jobmanager和Taskmanager 的 CPU 和内存等。

Deployment上除了作业描述外，还有期望状态和实际状态。期望状态是指用户所期望的目标状态，例如当要将运行中的作业停止时，期望状态就是Canceled；操作完成的实际运行状态就是实际状态。

总的来说，Deployment是一个任务的描述模板。VVP平台内部的状态机会根据Deployment的期望状态和实际状态来控制作业的实际运行。

5.Job

Deployment启动时会生成一个Job，这个Job对应一个具体的 Flink Job。同一时间，一个Deployment上只会有一个正在运行的Job。

二、SQL的语法说明

1.语法说明

首先看下图的语句，分别是创建源表和创建结果表。

下图是注册函数。函数的注册分为两步，第一步上传JAR包，然后在系统上可以勾选自动注册；第二种是使用 Flink 语法进行手工注册。

使用函数有两种方式，第一是内置函数的使用，如下图UPPER是 Flink 自带的函数；第二种是自定义函数，像MyScalarFunc。

在VVP平台里，也支持 Flink 里的Temporary Table，可以将它理解为临时表，只在当前会话周期内有效。在下图例子中，我们创建了两个Temporary Table，读取datagen_source表中的数据，输出到blackhole_sink表。

下图是Temporary View的语法示例。前面两段是一样的临时表；第三条语句是创建了一个tmp_view，它代表从Datagen_source的查询。在Flink里面Temporary View可以理解为让SQL的书写变得更简单，它不会对数据进行一个持久化，和数据库里面View概念是不一样的。第四条语句是从 view里面读取数据并写入到sink表里。