总结distinct、group by 、row_number()over函数用法及区别

distinct和group by 是一样的，查询去重，只能是全部重复的，也可以理解为针对单例，因为一行有一个字段不一样，他们就会认为这两行内容是不重复的。但是使用row_number()over这个函数就可以针对全部字段，完全重复还是部分重复都可以通过这个函数查找出来，因为它自身有分组的功能。以下就是具体代码：
- 上面那个表就是在最后两行时候ID,NAME，BIRTHDAY三个字段值重复，AGE字段值不一样。
- SELECT DISTINCT ID,NAME,BIRTHDAY FROM B查询结果就是：
- 但是语句上加上AGE字段，SELECT DISTINCT ID,NAME,BIRTHDAY，AGE FROM B 结果就不一样了：
- 会发现DISTINCT函数没有起作用，GROUP BY 函数和DISTINCT一样的，只是使用GROUP BY函数时候这样写就不会错：
  - SELECT ID,NAME,AGE,BIRTHDAY FROM B GROUP BY ID,NAME,AGE,BIRTHDAY;
- 换一种写法：SELECT ID,NAME,AGE,BIRTHDAY FROM B GROUP BY ID;就会报错，意思就是SELECT后面的跟几个字段，GROUP BY 后面也要跟几个字段，要不然就会报错。
说一说ROW_NUMBER()OVER这个函数：
- 删除一张表中重复数据，当你不知道那一个字段重复，或者你知道那一个字段重复，还有就是根据你的业务需求在用这个函数时候，因为这个函数在一定比较上还是有点麻烦，能不用就不用，但是呢这个函数内部有一个分组排序功能，也算是一种优化，像DISTINCT，不能随便用，成本高，效率低下，其实可以用group by 进行优化，其他的优化待续.......
- ROW_NUMBER()OVER
  - DELETE FROM (SELECT ID,ROW_NUMBER()OVER(PARTITION BY ID ORDER BY NAME)ROW_NUM FROM B)WHERE ROW_NUM>1;--这是删除表中全部重复部分重复的字段，根据业务需求。在你知道具体字段值重复时候直接delete from tablename where条件就可以删除。
- 使用ROW_NUMBER()OVER函数查询时候去重怎么操作：
  - select * from (select id,name,age,birthday, row_number() over (partition by id order by id)rank from b)where rank =1;
- 原来的表数据是这样的：
- 执行上面代码后结果是这样的：
- 使用row_number()over函数进行删除部分或者全部重复数据的代码是这样的：
  - delete from (select id,name,age,birthday, row_number() over (partition by id order by id)rank from b)where rank >1;
- 执行之前数据是这样的：
- 执行删除代码之后就是这样的：
- * 会这一个基本就行了，删除全部重复，部分重复，查询全部重复，查询部分重复均可用这一个。
- 其实个人对这个函数理解是：在查询时候，进行partition by 分组，order by 排序，然后把查询出来的结果集取个别名，可以把它当成一张表进行条件查询，别名rank就是分组之后那一列列名，新生的表包含rank这一个列，此时，就可以对这张分组排序好的表进行查询，最后查出来的结果就是去重的，无论全部重复或者部分重复均可使用。删除语句的道理和这个查询一模一样。

posted on 2019-02-22 16:55 天下熙攘皆为利往阅读(4031) 评论(1) 编辑收藏举报

刷新页面返回顶部

公告