由于公司的业务需要,需要爬取很多的国外网站图片,然后兄弟我一路正则杀过去,总共匹配到658张链接,心里美滋滋开始写下载的代码。然后就有了这次坑的记录。
首先这是我查到的链接数量
然后爬虫跑完后,美滋滋准备去看图片的时候,发现了
然后兄弟瞬间傻眼,卧槽?难道有反扒?继续测试,加了状态看看
兄弟开了100进程,瞬间跑完
一看控制台,全程没有输出那个else里的打印信息,去了眼爬的数量
怎么特么还是这么多?我的图呢,被狗吃了?然后进行了持续8小时的旷日的持久BUG之旅,前前后后各种信息都尝试了,还是没找出来,就在我特么快绝望的时候,突然想起一种情况
会不会是MD5的加密,导致前后两张图片的命名一样,虽然它们的请求链接不一样,但是没准加密后命名一样呢?如果一样,就会在保存的时候替换掉已经下载好的一样命名的图片。这样就会导致图片大量减少。
然后改代码
赶紧去看了一眼项目文件
心里一万个曹尼玛奔腾而过,这个坑死人的MD5,还是老老实实改成时间戳把。
全文到此结束。