痛定思痛!几个空行引起的重大失误!

由于一个文件的末尾多出了几个空行,导致抓取链接的网页重复,再加上数据量大,各种原因吧!

20万数据洗成了两万,不完全统计某些数据重复数高达100条,爬虫这一天是白跑了,痛定思痛,

这种错误以后可不能再犯了。这不仅耽误自己时间,也对不起人家网站呐。

posted @ 2018-01-14 19:57  深圳地铁Princess  阅读(157)  评论(0编辑  收藏  举报