MySQL 聚合函数(一)聚合(组合)函数概述
MySQL版本:5.7+
本节介绍对值的集合进行操作的组合(聚合)函数。翻译自:Aggregate (GROUP BY) Function Descriptions
一、MySQL 5.7中的聚合函数
MySQL 5.7中的聚合函数如下:
除非另有说明,否则组合函数会忽略NULL值。
如果在不包含Group By子句的语句中使用组合函数,就等效于对所有行进行分组。(个人理解是,结果总是只有一行。)关于这点的更多信息,后面的小节“MySQL处理Group By的方式”会讲到。
聚合函数中,方差和标准差函数会对数值参数返回DOUBLE值。SUM()和AVG()对精确值参数(integer或DECIMAL)返回DECIMAL值,而对近似值参数(FLOAT或DOUBLE)返回DOUBLE值。
时间类型的参数对SUM()和AVG()无效。它们会把时间类型的值转换成数字,丢弃第一个非数字字符后的所有信息)。如果要解决这个问题,先要将时间类型的值转换为合适的数值单元,在执行聚合操作后,再转换回时间值。如下所示:
SELECT SEC_TO_TIME(SUM(TIME_TO_SEC(time_col))) FROM tbl_name; SELECT FROM_DAYS(SUM(TO_DAYS(date_col))) FROM tbl_name;
诸如SUM()和AVG()这样需要数值参数的函数,会对非数值参数做必要的强制转换。而对于SET或ENUM值,强制转换操作会导致使用基础数值。
BIT_AND(),BIT_OR()和BIT_XOR()聚合函数执行位操作。它们需要BIGINT(64位整数)参数并返回BIGINT值。其他类型的参数将转换为BIGINT并可能发生截断。而在MySQL 8.0中,允许位操作采用二进制字符串类型参数(BINARY,VARBINARY和BLOB类型),详见其手册的12.12节。
二、聚合函数详解
2.1 AVG()
AVG([DISTINCT] expr)
函数返回expr的平均值。
DISTINCT则用于返回expr的不同值的平均值。
如果没有匹配的行,AVG()返回null。
2.2 COUNT()
COUNT(expr)
返回SELECT语句检索的行中expr的非NULL值的计数。
返回结果是BIGINT值。
如果没有匹配的行,count()返回0.
count(*)有些不同,它返回取回的行的行数的计数,无论它们是否包含NULL值。
对于诸如InnoDB之类的事务存储引擎,存储精确的行数是有问题的。多个事务可能同时发生,每个事务都可能影响计数。
所以InnoDB不在内部保留表的行数,因为并发事务可能同时“看到”不同数量的行。因此,SELECT COUNT(*)语句只计算当前事务可见的行。
在MySQL 5.7.18之前,InnoDB通过扫描聚集索引(clustered index)来处理SELECT COUNT(*)语句。从MySQL 5.7.18开始,InnoDB通过遍历最小的可用二级索引来处理SELECT COUNT(*)语句,除非索引或优化器提示指示优化器使用不同的索引。如果不存在辅助索引,则扫描聚集索引。
如果索引记录不完全在缓冲池中,那么处理select count(*)语句需要一些时间。为了更快地计算,可以创建一个计数表,让应用程序根据插入和删除操作更新它。但是,在数千个并发事务正在启动对同一计数器表的更新的情况下,此方法可能无法很好地扩展。因此,如果大概的行数可以满足需求,请使用SHOW TABLE STATUS。
对于MyISAM表,如果SELECT从一个表没有检索到其他列,并且没有WHERE子句,而只返回COUNT(*)的结果,则COUNT(*)会被优化,可以快速返回。例如:
SELECT COUNT(*) FROM student;
此优化仅适用于MyISAM表,因为为此存储引擎存储了精确的行数,并且可以非常快速地访问。COUNT(1)则仅在第一列定义为NULL时,受到相同额度优化。
2.3 COUNT(DISTINCT ...)
COUNT(DISTINCT expr,[expr...])
函数返回返回不相同且非NULL的expr值的行数。
如果没有匹配的行,则COUNT(DISTINCT)返回0。
在MySQL中,您可以通过提供表达式列表,来获取不包含NULL的不同表达式组合的数量。而在标准表达式中,必须在COUNT(DISTINCT ...)中对所有表达式进行连接。
2.4 GROUP_CONCAT()
GROUP_CONCAT([DISTINCT] expr [,expr ...] [ORDER BY {unsigned_integer | col_name | expr} [ASC | DESC] [,col_name ...]] [SEPARATOR str_val])
这个函数把来自同一个组的某一列(或者多列)的数据连接起来成为一个字符串。
如果没有非NULL值,返回NULL。
示例如下:
/*001*/ /*成绩表中只对学生ID分组*/ select SId, group_concat(cId),group_concat(score) from sc group by SId;
结果如下,并没有排序
/*002*/ /*排序后连接,改变分隔符*/ select SId, group_concat(cId),group_concat(score order by score desc separator ' ') from sc group by SId;
结果如下:
至于对多个expr的连接,试了试,会把两个字段无缝连在一起。
select SId, group_concat(cId,score),group_concat(score) from sc group by SId;
Group_Concat()的结果将截断为group_concat_max_len系统变量所设置的最大长度,该变量的默认值为1024。
而返回值是非二进制或二进制字符串,具体取决于参数是非二进制还是二进制字符串。
返回的结果类型为TEXT或BLOB,除非group_concat_max_len小于或等于512,这种情况下,结果类型为VARCHAR或VARBINARY。
2.5 JSON_ARRAYAGG(col or expr)
将结果集聚合为单个JSON数组,其元素由参数列的值组成。此数组中元素的顺序未定义。该函数作用于计算为单个值的列或表达式。
异常返回NULL。
示例如下:
2.6 JSON_OBJECTAGG(key,value)
两个列名或表达式作为参数,第一个用作键,第二个用作值,并返回包含键值对的JSON对象。
如果结果不包含任何行,或者出现错误,则返回NULL。如果任何键名称为NULL或参数数量不等于2,则会发生错误。
如何处理重复key,参考原文此处。
2.7 其余函数
位函数进行位操作。
标准差和方差函数,为了兼容有不同的函数名。
详见原文档。