摘要: 最近在做一个多线程的爬虫程序,由于队列中有重复的数据,尽管程序中有判断不存在则插入,但由于多个线程并发,导致数据库中存在部分重复的数据。 程序中的bug已经修复,但重新爬一遍耗时耗力,于是就选择删除重复的数据,只保留一条有效数据 解决的思路就是根据确定其数据唯一的聚合字段进行分组,然后只保留一条有效 阅读全文
posted @ 2021-11-06 11:12 hello-*-world 阅读(1809) 评论(0) 推荐(0) 编辑