12. 使用MySQL之汇总数据
聚集函数用来汇总数据。MySQL支持一系列聚集函数,可以用多种方法使用它们以返回所需的结果。这些函数是高效设计的,它们返回结果一般比你在自己的客户机应用程序中计算要快得多。
1. 聚集函数
我们经常需要汇总数据而不用把它们实际检索出来,为此MySQL提供了专门的函数。使用这些函数,MySQL查询可用于检索数据,以便分析和报表生成。这种类型的检索例子有以下几种:
-
确定表中行数(或者满足某个条件或包含某个特定值的行数)。
-
获得表中行组的和。
-
找出表列(或所有行或某些特定的行)的最大值、最小值和平均值。
上述例子都需要对表中数据(而不是实际数据本身)汇总。因此,返回实际表数据是对时间和处理资源的一种浪费(更不用说带宽了)。我们实际想要的是汇总信息。
为方便这种类型的检索,MySQL给出了5个聚集函数,如下表所示:
这些函数能进行上述罗列的检索。
补充:
-
聚集函数(aggregate function):
运行在行组上,计算和返回单个值的函数。
-
标准偏差:
MySQL还支持一系列的标准偏差聚集函数,标准偏差用于衡量数据集的离散程度,值越大,表示数据的分布越广。在此介绍几种:
-
STD()
:-
用法:计算样本的标准偏差。适用于样本数据,用于估计总体的标准偏差。
-
示例:
SELECT STD(column_name) AS standard_deviation FROM table_name;
自己试了一下(但是可能与其本身意义有点违背,因为这个不是样本数据而是总体数据):
-
-
STDDEV()
:-
用法:用法:与
STD()
函数相同,计算样本的标准偏差。可以互换使用。 -
示例:
SELECT STDDEV(column_name) AS standard_deviation FROM table_name;
-
-
STDDEV_POP()
:-
用法:计算计算总体的标准偏差。适用于整个总体的数据。如果你有完整的总体数据而非样本数据,使用这个函数。
-
示例:
SELECT STDDEV_POP(column_name) AS population_standard_deviation FROM table_name;
-
-
STDDEV_SAMP()
:-
用法:计算样本的标准偏差,与
STD()
和STDDEV()
功能相同,通常用于样本数据。 -
示例:
SELECT STDDEV_SAMP(column_name) AS sample_standard_deviation FROM table_name;
-
-
1.1 AVG()函数
AVG()
通过对表中行数计数并计算特定列值之和,求得该列的平均值。AVG()
可用来返回所有列的平均值,也可以用来返回特定列或行的平均值。
-
要使用
AVG()
返回products表中所有产品的平均价格,可以这样做:select avg(prod_price) as avg_price from products;
输出如下:
此SELECT语句返回值avg_Price,它包含products表中所有产品的平均价格。如第10章所述,avg_price是一个别名。
-
AVG()
也可以用来确定特定列或行的平均值。要使用
AVG()
返回特定供应商所提供产品的平均价格,可以这样做:select avg(prod_price) as avg_price from products where vend_id = 1003;
输出如下:
这条SELECT语句与前一条的不同之处在于它包含了WHERE子句。此WHERE子句仅过滤出vend_id为1003的产品,因此avg_price中返回的值只是该供应商的产品的平均值。
注意:
-
只用于单个列:
AVG()
只能用来确定特定数值列的平均值,而且列名必须作为函数参数给出。为了获得多个列的平均值,必须使用多个AVG()
函数。 -
NULL值:
AVG()
函数忽略列值为NULL的行。
1.2 COUNT()函数
COUNT()
函数进行计数。可利用COUNT()
确定表中行的数目或符合特
定条件的行的数目。
COUNT()函数有两种使用方式。
-
使用
COUNT(*)
对表中行的数目进行计数,不管表列中包含的是空值(NULL)还是非空值。 -
使用
COUNT(column)
对特定列中具有值的行进行计数,忽略NULL值。
举几个例子说明:
-
要返回customers表中客户的总数,可以这样做:
select count(*) as num_cust from customers
输出如下:
在此例子中,利用
COUNT(*)
对所有行计数,不管行中各列有什么值。计数值在num_cust中返回。 -
要只对具有电子邮件地址的客户计数,可以这样做:
select count(cust_email) as num_cust from customers;
输出如下:
这条SELECT语句使用
COUNT(cust_email)
对cust_email列中有值的行进行计数。在此例子中,cust_email的计数为3(表示5个客户中只有3个客户有电子邮件地址)。
注意:
NULL值:
如果指定列名,则指定列的值为空的行被COUNT()
函数忽略,但如果COUNT()
函数中用的是星号(*),则不忽略。
1.3 MAX()函数
MAX()
返回指定列中的最大值。MAX()
要求指定列名。
比如:
select max(prod_price) as max_price
from products;
输出如下:
这里,MAX()
返回products表中最贵的物品的价格。
注意:
-
对非数值数据使用MAX():
虽然
MAX()
一般用来找出最大的数值或日期值,但MySQL允许将它用来返回任意列中的最大值,包括返回文本列中的最大值。在用于文本数据时,如果数
据按相应的列排序,则MAX()返回最后一行。举个例子:
SELECT * FROM crashcourse.products; select max(prod_desc) from products;
第一条sql语句输出如下:
第二条sql语句输出如下:
-
NULL值:
MAX()
函数忽略列值为NULL的行。
1.4 MIN()函数
MIN()
的功能正好与MAX()
功能相反,它返回指定列的最小值。与
MAX()
一样,MIN()
要求指定列名,
比如:
select min(prod_price) as min_price
from products;
输出如下:
其中MIN()
返回products表中最便宜物品的价格。
注意:
-
对非数值数据使用MIN():
MIN()
函数与MAX()
函数类似,MySQL允许将它用来返回任意列中的最小值,包括返回文本列中的最小值。在用于文本数据时,如果数据按相应的列排序,则MIN()
返回最前面的行。 -
NULL值:
MIN()
函数忽略列值为NULL的行
1.5 SUM()函数
SUM()
用来返回指定列值的和(总计)。
-
举一个例子,orderitems表包含订单中实际的物品,每个物品有相应的数量(quantity)。可如下检索所订购物品的总数(所有quantity值之和):
select sum(quantity) as items_ordered from orderitems where order_num = 20005;
输出如下:
函数
SUM(quantity)
返回订单中所有物品数量之和,WHERE子句保证只统计某个物品订单中的物品。 -
SUM()
也可以用来合计计算值。在下面的例子中,合计每项物品的
item_price*quantity,得出总的订单金额:select sum(item_price*quantity) as total_price from orderitems where order_num = 20005;
输出如下:
函数
SUM(item_price*quantity)
返回订单中所有物品价钱之和,WHERE子句同样保证只统计某个物品订单中的物品。
注意:
-
在多个列上进行计算:
如本例所示,利用标准的算术操作符,所有聚集函数都可用来执行多个列上的计算。
-
NULL值:
SUM()
函数忽略列值为NULL的行。
2. 聚集不同值
插一句题外话:
MySQL 5 及后期版本:
下面将要介绍的聚集函数的DISTINCT
的使用,已经被添加到MySQL 5.0.3中。下面所述内容在MySQL 4.x中不能正常运行。
回归正题
以上5个聚集函数都可以如下使用:
-
对所有的行执行计算,指定
ALL
参数或不给参数(因为ALL是默认
行为); -
只包含不同的值,指定
DISTINCT
参数。
即:
ALL为默认:
ALL
参数不需要指定,因为它是默认行下面的例子使用AVG()函数返回特定供应商提供的产品的平均价格。
它与上面的SELECT语句相同,但使用了DISTINCT参数,因此平均值只
考虑各个不同的价格:为。如果不指定DISTINCT
,则假定为ALL
。
下面的例子使用AVG()
函数返回特定供应商提供的产品的平均价格。它与上面的SELECT语句相同,但使用了DISTINCT
参数,因此平均值只考虑各个不同的价格:
select avg(distinct prod_price) as avg_price
from products
where vend_id = 1003;
输出如下:
可以看到,在使用了DISTINCT
后,此例子中的avg_price比较高,因为有多个物品具有相同的较低价格。排除它们提升了平均价格。
注意:
-
DISTINCT在COUNT中使用的特别点:
如果指定列名,则
DISTINCT
只能用于COUNT()
。DISTINCT
不能用于COUNT(*)
,因此不允许使用COUNT(DISTINCT *)
,否则会产生错误。类似地,DISTINCT
必须使用列名,不能用于计算或表达式。 -
将DISTINCT用于MIN()和MAX():
虽然
DISTINCT
从技术上可用于MIN()
和MAX()
,但这样做实际上没有价值。一个列中的最小值和最大值不管是否包含不同值都是相同的。
3. 组合聚集函数
目前为止的所有聚集函数例子都只涉及单个函数。但实际上SELECT语句可根据需要包含多个聚集函数。
比如:
select count(*) as num_items,
min(prod_price) as price_min,
max(prod_price) as price_max,
avg(prod_price) as price_avg
from products;
输出如下:
这里用单条SELECT语句执行了4个聚集计算,返回4个值(products表中物品的数目,产品价格的最高、最低以及平均值)。
补充:
取别名:
在指定别名以包含某个聚集函数的结果时,不应该使用表中实际的列名。虽然这样做并非不合法,但使用唯一的名字会使你的SQL更易于理解和使用(以及将来容易排除故障)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)