sql 语句系列(众数中位数与百分比)[八百章之第十五章]
众数
众数就是出现最多的那个数。
select sal,count(*) as cnt
from emp
where DEPTNO=20
group by sal
通过分组把他们的行数计算出来。那么最关键的部分在于,你如何知道最大值。
是的我们可以查出当前最大值,然后再取出最大值的sal。但是这肯定要用到两个临时视图。
注:我们不能通过排序cnt,然后取值第一个,因为可能存在相同的行数。
解决方案:通过dense_rank 进行排序。
科普一下概念:
row_number的用途非常广泛,排序最好用它,它会为查询出来的每一行记录生成一个序号,依次排序且不会重复,注意使用row_number函数时必须要用over子句选择对某一列进行排序才能生成序号。
rank函数用于返回结果集的分区内每行的排名,行的排名是相关行之前的排名数加一。简单来说rank函数就是对查询出来的记录进行排名,与row_number函数不同的是,rank函数考虑到了over子句中排序字段值相同的情况,如果使用rank函数来生成序号,over子句中排序字段值相同的序号是一样的,后面字段值不相同的序号将跳过相同的排名号排下一个,也就是相关行之前的排名数加一,可以理解为根据当前的记录数生成序号,后面的记录依此类推。
dense_rank函数的功能与rank函数类似,dense_rank函数在生成序号时是连续的,而rank函数生成的序号有可能不连续。dense_rank函数出现相同排名时,将不跳过相同排名号,rank值紧接上一次的rank值。在各个分组内,rank()是跳跃排序,有两个第一名时接下来就是第三名,dense_rank()是连续排序,有两个第一名时仍然跟着第二名。
答案:
sql server
select sal
from(
select sal,DENSE_RANK() over(order by cnt desc) as rnk
from (select sal,count(*) as cnt
from emp
where DEPTNO=20
group by sal
) x) y
where rnk=1
mysql
select sal,count(*) as cnt
from EMP
where DEPTNO=20
group by sal
HAVING COUNT(*)>=all(
select count(*)
from EMP
where DEPTNO=20
group by sal
)
因为mysql 没有DENSE_RANK,所以只能通过大于等于所有值来完成。这样就相当于查询了两遍。
中位数
这个比较简单:
sql service
select avg(SAL) as sal from
(select SAL,COUNT(*) over() total,CAST(COUNT(*) over() as decimal)/2 mid,CEILING((CAST(COUNT(*) over() as decimal)/2)) as next,
ROW_NUMBER() over(order by sal) rn
from emp
where DEPTNO=20) x
where (total%2=0 and rn in(mid,mid+1))
or (total%2=1 and rn=next)
可能看起来比较复杂,拆开来一下:
select SAL,COUNT(*) over() total,CAST(COUNT(*) over() as decimal)/2 mid,CEILING((CAST(COUNT(*) over() as decimal)/2)) as next,
ROW_NUMBER() over(order by sal) rn
from emp
where DEPTNO=20
这样就很清晰了。
mysql:
select avg(x.sal)
FROM(
select e.sal
from EMP e,EMP d
where e.deptno=d.deptno
and e.deptno=20
GROUP BY e.SAL
HAVING SUM(case when e.sal=d.sal then 1 else 0 end)>=abs(sum(sign(e.sal-d.SAL)))) x
一开始我也很懵逼,后来这样:
select e.sal,SUM(case when e.sal=d.sal then 1 else 0 end),abs(sum(sign(e.sal-d.SAL)))
from EMP e,EMP d
where e.deptno=d.deptno
and e.deptno=20
GROUP BY e.SAL
如果自己相同的数大于等于它左右两边差距数,那么其是中位数。
百分比
其他没什么值得注意的,就是算除法。
唯一值得关注的是:
如果是int类型,那么应该转换,再去计算。
CAST(x.d10 as decimal)