一、Oracle分析函数简介
1、分析函数,最早是从ORACLE8.1.6开始出现的,它的设计目的是为了解决诸如“累计计算”,“找出分组内百分比”,“前-N条查询”,“移动平均数计算”"等问题。其实大部分的问题都可以用PL/SQL解决,但是它的性能并不能达到你所期望的效果。分析函数是SQL言语的一种扩充,它并不是仅仅试代码变得更简单而已,它的速度比纯粹的SQL或者PL/SQL更快。现在这些扩展已经被纳入了美国国家标准化组织SQL委员会的SQL规范说明书中。
2、在日常的生产环境中,我们接触得比较多的是OLTP系统(即OnlineTransaction Process),这些系统的特点是具备实时要求,或者至少说对响应的时间多长有一定的要求;其次这些系统的业务逻辑一般比较复杂,可能需要经过多次的运算。比如我们经常接触到的电子商城。
在这些系统之外,还有一种称之为OLAP的系统(即Online Aanalyse Process),这些系统一般用于系统决策使用。通常和数据仓库、数据分析、数据挖掘等概念联系在一起。这些系统的特点是数据量大,对实时响应的要求不高或者根本不关注这方面的要求,以查询、统计操作为主。
Oracle分析函数,主要用于OLAP的系统中
二、Oracle分析函数原理
1、分析函数通过将行分组后,再计算这些分组的值。它们与聚集函数不同之处在于能够对每一个分组返回多行值。分析函数根据analytic claues(分析子句)将行分组,一个分组称为:一个窗口(可通过Windowsing Clause子句进行控制),并通过分析语句定义,对于每一行都对应有一个在行上滑动的窗口。该窗口确定当前行的计算范围。窗口大小可以用多个物理行(例如:rowid实际编号)进行度量,也可以使用逻辑区间进行度量,比如时间。
2、分析函数是查询中除需要在最终处理的order by 子句之外最后执行的操作。所有连接、WHERE、GROUP BY、HAVING子句都是分析函数处理之前完成的。因此,分析函数只出现在SELECT LIST或ORDER BY(按…排序)语句中,而不能出现在where或having子句中
3、分析函数通常用于计算:数据累积值、数据移动值、数据中间值,和输出集合报表。
三、Oracle分析函数的语法
Analytic-Function(<Argument>,<Argument>,…)
over(
<Query-Partition-Clause>
<Order-by-Clause>
<Windowing-Clause>
)
例如:sum(sal) over(partition by deptno order by ename)new_alias
1)sum:就是函数名
2)(sal): 是分析函数的参数,每个函数有0~3个参数,参数可以是表达式,例如:sum(sal+comm)
3)over:是一个关键字,用于标识分析函数,否则查询分析器不能区别sum()聚集函数和sum()分析函数
4)partition by deptno:是可选的分区子句,如果不存在任何分区子句,则全部的结果集可看作一个单一的大区
5)order by ename:是可选的order by 子句,有些函数需要它,有些则不需要。依靠已排序数据的那些函数,例如:用于访问结果集中前一行和后一行的LAG和LEAD,它们就必须使用;其它函数,例如:AVG,则不需要用到order by 子句。在使用了任何排序的开窗函数时,该子句是强制性的,它指定了在计算分析函数时一组内的数据是如何排序的.(即:如果要使用Windowing-Clause子句,那么一定要先使用Order by 子句)
1、Analytic-Function
ORACLE提供了28个分析函数(包括如下:
AVG *,CORR *,COVAR_POP *,COVAR_SAMP *,COUNT*,CUME_DIST,DENSE_RANK,FIRST,FIRST_VALUE *,LAG,LAST,LAST_VALUE *,LEAD,MAX *,
MIN *,NTILE,PERCENT_RANK,PERCENTILE_CONT,PERCENTILE_DISC,RANK,RATIO_TO_REPORT,REGR_(Linear Regression) Functions *,ROW_NUMBER,STDDEV *,STDDEV_POP *,STDDEV_SAMP*,SUM *,VAR_POP *,VAR_SAMP*,VARIANCE),按功能分5类
1)分析函数分类
(1)等级(ranking)函数:用于寻找前N种查询,如:RANK、DENSE_RANK等
(2)开窗(windowing)函数:用于计算不同的累计,如:SUM,COUNT,AVG,MIN,MAX等,作用于数据的一个窗口上
例如:如下函数
sum(t.sal) over (order by t.deptno,t.ename) running_total,
sum(t.sal) over (partition by t.deptno order by t.ename) department_total
(3)制表(reporting)函数:与开窗函数同名,作用于一个分区或一组上的所有列
例如:如下函数
sum(t.sal) over () running_total2,
sum(t.sal) over (partition by t.deptno ) department_total2
说明:制表函数与开窗函数的关键不同之处:在于OVER语句上缺少一个ORDER BY子句
(4)LAG,LEAD函数:这类函数允许在结果集中向前或向后检索值,为了避免数据的自连接,它们是非常用用的.
(5)VAR_POP,VAR_SAMP,STDEV_POPE及线性的衰减函数:计算任何未排序分区的统计值
2) 分析函数函数,及返回值
分析函数可取0-3个参数。参数可以是任何数字类型或是可以隐式转换为数字类型的数据类型。Oracle根据最高数字优先级别确定函数参数,并且隐式地将需要处理的参数转换为数字类型。函数的返回类型也为数字类型,除非此函数另有说明。
2、Analytic_Clause
[ query_partition_clause ] [ order_by_clause [ windows_clause ] ]
1)Over Analytic clause用以指明函数操作的是一个查询结果集。也就是说分析函数是在from,where,group by,和having子句之后才开始进行计算的。因此在选择列或order by子句中可以使用分析函数。为了过滤分析函数计算的查询结果,可以将它作为子查询嵌套在外部查询中,然后在外部查询中过滤其查询结果。
2)使用Analytic_Clause子名时,注意如下
(1)Analytic clause中不能包含其他任何分析函数。也就是说,分析函数不能嵌套。然而可以在一个子查询中应用分析函数,并且通过它计算另外的分析函数。
(2)用户自定义分析函数和内置函数分析函数,都可以使用OverAnalytic_Clause。
3、PARTITION子句
partition by { value_expr [,value_expr ]… | (value_expr [,value_expr ] …)}
说明:按照表达式分区(就是分组),如果省略了分区子句,则全部的结果集被看作是一个单一的组
1)Partition by子句根据一个或多个valueexpr将查询结果集分成若干组。若不使用该子句,那么函数将查询结果集的所有行当作一个组。
2)在分析函数中使用query_partition_clause,应该使用语法图中上分支中的语法(不带圆括号)。model查询(位于model column clauses中)或被分隔的外部连接(位于outer_join_clause中)中使用该子句,应该使用语法图中下分支中的语法(带有圆括号)。
3) 在同一个查询中可以使用多个分析函数,它们可以有相同或不同的partition by键值
4) 若被查询的对象具有并行特性,并且分析函数中包含query_partition_clause,那么函数的计算也是并行的。
5) value expr的有效值:包括常量,表列,非分析函数,函数表达式,或者前面这些元素的任意组合表达式。
4、ORDER BY子句
分析函数中ORDER BY的存在将添加一个默认的开窗子句(默认窗口为:RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW),这意味着计算中所使用的行的集合是当前分区中当前行和前面所有行,没有ORDER BY时,默认的窗口是全部的分区 在Order by 子句后可以添加nulls last,如:order by comm desc nullslast 表示排序时忽略comm列为空的行.
1)Order_by_clause用以指定分组中数据的排序形式。除了percentile_cont和percentile_disc之外(它们只能取唯一的键值)外的分析函数,分组中可以使用多个键值对值进行排序,每个键值在value expr中定义,并且被排序序列限定。
2)每个函数内可以指定多个排序表达式。当使用函数给值排名时,尤其显得意义非凡,因为第二个表达式能够解决按照第一个表达式排序后仍然存在相同排名的问题。
3)只要使用order_by_clause后,仍存在值相同的行,则每一行都会返回相同的结果。
4)使用Ordery_by_clause子句的限制:
(1)分析函数中的order_by_clause必须是一个表达式(expr)。Sibling关键字在此处是非法的(它仅仅与层次查询有关)。位置(position)和列别名(c_alias)也是非法的。除此之外,order_by_clause的用法与整个查询或者子查询中的相同。
(2)当分析函数使用range关键字限定窗口时,若使用的窗口是下列两个窗口之一,那么可以在分析函数的order_by_clause中使用多个排序健值。
① range between UNBOUNDEDPRECEDING and CURRENT ROW <=> range UNBOUNDED PRECEDING
② range between CURRENT ROWand UNBOUNDED FOLLOWING <=> range UNBOUNDED FOLLOWING
注意: 若窗口范围由range关键字指定的分析函数中指定的不是这两个窗口范围(即:range unbounded preceding与range unboundedfollowing),那么order_by子句中仅能使用一个排序键值。
(3)若分析函数的窗口范围由row关键字指定,order_by子句中排序键值的使用没有这个限制。
5)asc | desc:指定排序顺序(升序或降序),asc是默认值。
6)nulls first | nulls last:指定返回行包含空值,该值应该出现在排序序列的开始还是末尾。
7)升序排序的默认值为:nulls last,降序排序的默认值为:nulls first。
8)分析函数总是按order_by_clause对行排序。然而,分析函数中的order_by_clause只对各个分组进行排序,而不能保证查询结果有序。要保证最后的查询结果有序,可以使用查询的order_by_clause。
5、WINDOWING子句
1)有些分析函数允许使用windowing clause。在上述的分析函数列表中,带有星号(*)的函数都允许使用windowing_clause。
2)用于定义分析函数将在其上操作的行的集合,Windowing子句给出了一个定义变化或固定的数据窗口的方法,分析函数将对这些数据进行操作默认的窗口是一个固定的窗口,仅仅在一组的第一行开始,一直继续到当前行(即:range unbounded preceding),要使用窗口,必须使用ORDER BY子句。
3)row | range:这些关键字为每一行定义一个窗口,该窗口用于计算函数结果(物理或者逻辑的行的集合)。然后对窗口中的每一行应用分析函数。窗口在查询结果集或者分组中从上至下移动。
4)根据2个标准可以建立窗口:数据值的范围(逻辑偏移量--range)或与当前行的行偏移量(物理单位--rows)。
5)只有指定order_by_clause后才能指定windowing_clause。有些range子句定义的窗口范围只能在order_by_clause中指定一个排序表达式。
6)一个带逻辑偏移量的分析函数的返回值总是确定的。然而,除非排序表达式能产生唯一的排序,否则带有物理偏移量的分析函数的返回值可能会产生不确定的结果。为了解决此问题,你可能不得不在order by clause中指定多个列以获得唯一的排序。
(1)between…and:用来指定窗口的起点和终点。第一个表达式(位于and之前)定义起点,第二个表达式(位于and之后)定义终点。若不使用between而仅指定一个终点,那么oracle认为它是起点,终点默一认为当前行。
(2)unbounded preceding:指明窗口开始于分组的第一行。它只用于指定起点而不能用于指定终点
(3)unbounded following:指明窗口结束于分组的最后一行。它只用于指定终点而不能用于指定起点
(4)current row:
① 用作起点:指定窗口开始于当前行或者当前值(依赖于是否分别指定row或者range)。在这种情况下终点不能为value_expre preceding。
② 用作终点:指定窗口结束于当前行或者当前值(依赖于是否分别指定row或者range)。在这种情况下起点不能为value_expr following。
7)range或者row中的value_expr preceding或者value_expr following:
(1)若value_expr FOLLOWING是起点,那么终点必须为:value_exprFOLLOWING。
(2)若value_expr PRECEDING是终点,那么起点必须是:value_exprPRECEDING。
(3)若要定义一个数字格式的时间间隔的逻辑窗口,那么可能需要用到转换函数(numtoyminterval与numtodsinterval)
8)若windowing_clause由range指定:
(1)value_expr是一个逻辑偏移量。它必须是常量,或者值为正数值的表达式,或者时间间隔文字常量。
(2)只能在order_by_clause中指定一个表达式。
(3)若value_expr求值为一个数字值,那么order_by_expr必须为数字或者date类型。
(4)若value_expr求值为一个间隔值,那么order_by_expr必须是一个date类型。
(5)若完全忽略windowing_clause,那么默认值为: range between unbounded preceding and current row。
注意:range 5 preceding:将产生一个滑动窗口,它在组中拥有当前行以及前5行的集合;
RANGE窗口仅对NUMBERS和DATES起作用,因为不可能从VARCHAR2中增加或减去N个单元,另外的限制是ORDER BY中只能有一列,因而范围实际上是一维的,不能在N维空间中
例:avg(t.sal) over(order by t.hiredate asc range 100preceding) 统计前100天平均工资
8)若windowing_clause由rows指定:
(1)value_expr是一个物理偏移量,它必须是一个常量或者表达式,并且表达式的值必须是正数值
(2)若value_expr是起点的一部分,那么它必须在终点之前对行求值。
(3)利用ROW分区,就没有RANGE分区那样的限制了,数据可以是任何类型,且ORDER BY 可以包括很多列
9)常用的Specifying窗口
(1)UNBOUNDED PRECEDING:这个窗口从当前分区的每一行开始,并结束于正在处理的当前行
(2)CURRENT ROW:该窗口从当前行开始(并结束)
(3)Numeric Expression PRECEDING:对该窗口从当前行之前的数字表达式(Numeric Expression)的行开始,对RANGE来说,从从行序值小于数字表达式的当前行的值开始.
(4)Numeric Expression FOLLOWING:该窗口在当前行Numeric Expression行之后的行终止(或开始),且从行序值大于当前行NumericExpression行的范围开始(或终止)
例如:range between 100 preceding and 100 following:当前行100前,当前后100后
注意:分析函数允许你对一个数据集进排序和筛选,这是SQL从来不能实现的.除了最后的Order by子句之外,分析函数是在查询中执行的最后的操作集,这样的话,就不能直接在谓词中使用分析函数,即不能在上面使用where或having子句!!