2018年6月1日
摘要: (1)、数据去重简介 1、数据去重:指在一个数字文件集合中,找出重复的数据并将其删除,只保留唯一的数据单元的过程。 2、分类: url去重:直接筛选掉重复的url 数据库去重:利用数据库的特性删除重复的数据 3、图解 4、为何需要进行url去重? 运行爬虫时,我们不需要一个网站被下载多次,这会导致c 阅读全文
posted @ 2018-06-01 23:53 疾风_lu 阅读(10005) 评论(0) 推荐(2) 编辑