MySQL 大批量插入，如何过滤掉重复数据？【转】

阅读目录

删除全部重复数据，一条不留
删除表中删除重复数据，仅保留一条
开始删除重复数据，仅留一条

加班原因是上线，解决线上数据库存在重复数据的问题，发现了程序的bug，很好解决，有点问题的是，修正线上的重复数据。

线上库有6个表存在重复数据，其中2个表比较大，一个96万+、一个30万+，因为之前处理过相同的问题，就直接拿来了上次的Python去重脚本，脚本很简单，就是连接数据库，查出来重复数据，循环删除。

emmmm，但是这个效率嘛，实在是太低了，1秒一条，重复数据大约2万+，预估时间大约在8个小时左右。。。

盲目依靠前人的东西，而不去自己思考是有问题的！总去想之前怎么可以，现在怎么不行了，这也是有问题的！我发现，最近确实状态不太对，失去了探索和求知的欲望，今天算是一个警醒，颇有迷途知返的感觉。

言归正传，下面详细介绍去重步骤。

CREATE TABLE `student` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(20) DEFAULT NULL,
  `age` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;


INSERT INTO `student` (`id`, `name`, `age`) VALUES ('1', 'cat', '12');
INSERT INTO `student` (`id`, `name`, `age`) VALUES ('2', 'dog', '13');
INSERT INTO `student` (`id`, `name`, `age`) VALUES ('3', 'camel', '25');
INSERT INTO `student` (`id`, `name`, `age`) VALUES ('4', 'cat', '32');
INSERT INTO `student` (`id`, `name`, `age`) VALUES ('5', 'dog', '42');

目标：我们要去掉name相同的数据。

先看看哪些数据重复了

SELECT name,count( 1 ) 
FROM
 student 
GROUP BY
NAME 
HAVING
 count( 1 ) > 1;

输出：

+------+------------+
| name | count( 1 ) |
+------+------------+
| cat | 2 |
| dog | 2 |
+------+------------+
2 rows in set (0.00 sec)

name为cat和dog的数据重复了，每个重复的数据有两条；

Select * From 表 Where 重复字段 In (Select 重复字段 From 表 Group By 重复字段 Having Count(1)>1)

回到顶部

删除全部重复数据，一条不留

直接删除会报错

DELETE 
FROM
 student 
WHERE
 NAME IN (
 SELECT NAME 
 FROM
  student 
 GROUP BY
 NAME 
HAVING
 count( 1 ) > 1)

报错：

1093 - You can't specify target table 'student' for update in FROM clause, Time: 0.016000s

原因是：更新这个表的同时又查询了这个表，查询这个表的同时又去更新了这个表，可以理解为死锁。mysql不支持这种更新查询同一张表的操作

解决办法：把要更新的几列数据查询出来做为一个第三方表，然后筛选更新。

DELETE 
FROM
 student 
WHERE
 NAME IN (
 SELECT
  t.NAME 
FROM
 ( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) > 1 ) t)

回到顶部

删除表中删除重复数据，仅保留一条

在删除之前，我们可以先查一下，我们要删除的重复数据是啥样的

SELECT
 * 
FROM
 student 
WHERE
 id NOT IN (
 SELECT
  t.id 
 FROM
 ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t 
 )

啥意思呢，就是先通过name分组，查出id最小的数据，这些数据就是我们要留下的火种，那么再查询出id不在这里面的，就是我们要删除的重复数据。

回到顶部

开始删除重复数据，仅留一条

很简单，刚才的select换成delete即可

DELETE 
FROM
 student 
WHERE
 id NOT IN (
 SELECT
  t.id 
 FROM
 ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t 
 )

90万+的表执行起来超级快。

转自

MySQL 大批量插入，如何过滤掉重复数据？
https://mp.weixin.qq.com/s/9Yt-HkeNxTVUcYu7jqcp1Q

posted @ 2021-08-05 10:16 paul_hch 阅读(218) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

历史上的今天：
2016-08-05 [实用]DNS解析命令，静静地学会【转载】
2016-08-05 Apache配置详解【转】

公告

昵称： paul_hch
园龄： 10年1个月
粉丝： 166
关注： 20

+加关注

2025年3月

日

一

二

三

四

五

六

hch的随笔成功的秘诀在于恒心—迪斯雷利

成功的秘诀在于恒心——迪斯雷利

MySQL 大批量插入，如何过滤掉重复数据？【转】

删除全部重复数据，一条不留

删除表中删除重复数据，仅保留一条

开始删除重复数据，仅留一条

公告

搜索

我的标签

积分与排名

随笔分类 (1040)

随笔档案 (1219)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

hch的随笔 成功的秘诀在于恒心—迪斯雷利

成功的秘诀在于恒心——迪斯雷利

MySQL 大批量插入，如何过滤掉重复数据？【转】

删除全部重复数据，一条不留

删除表中删除重复数据，仅保留一条

开始删除重复数据，仅留一条

公告

搜索

我的标签

积分与排名

随笔分类 (1040)

随笔档案 (1219)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

hch的随笔成功的秘诀在于恒心—迪斯雷利