SQL3 - 查询结果去重 - DISTINCT/GROUP BY用法+区别+效率分析

题目链接

使用 DISTINCT ：

SELECT DISTINCT university
FROM user_profile

使用 GROUP BY ：

SELECT university 
FROM user_profile
GROUP BY university

因为DISTINCT只能放在 SELECT后面和需要查询的字段前面的位置，所以对DISTINCT后面的所有字段都生效（即满足所有字段行整体唯一性），而不是根据就近原则对单个字段生效，所以在我们需要查询多列+只去重单个字段的情况下来说，无法使用DISTINCT，但是可以使用GROUP BY。

	单个字段去重	多个字段去重
查询单列	DISTINCT + GROUP BY	DISTINCT + GROUP BY
查询多列	GROUP BY	DISTINCT + GROUP BY

有索引的情况下：group by和distinct都能使用索引，效率相同。
无索引的情况下：取决于MySQL版本。distinct 和 group by都会进行分组操作，但group by在Mysql8.0之前会进行隐式排序，导致触发filesort，sql执行效率低下，所以distinct效率高于group by。但从Mysql8.0开始，Mysql就删除了隐式排序，group by和distinct的执行效率就差不多了。

更推荐使用group by，因为：

group by语义更为清晰。
group by可对数据进行更为复杂的一些处理。相比于distinct来说，group by的语义明确。且由于distinct关键字会对所有字段生效，在进行复合业务处理时，group by的使用灵活性更高，group by能根据分组情况，对数据进行更为复杂的处理，例如通过 HAVING 对数据进行过滤，或通过 聚合函数 （count(), sum()等）对数据进行运算。