Data
Stay hungry,Stay foolish!

导航

 
由于公司的业务需要,需要爬取很多的国外网站图片,然后兄弟我一路正则杀过去,总共匹配到658张链接,心里美滋滋开始写下载的代码。然后就有了这次坑的记录。
首先这是我查到的链接数量

gai

然后爬虫跑完后,美滋滋准备去看图片的时候,发现了

gai

然后兄弟瞬间傻眼,卧槽?难道有反扒?继续测试,加了状态看看

gai

兄弟开了100进程,瞬间跑完

gai

一看控制台,全程没有输出那个else里的打印信息,去了眼爬的数量

gai

怎么特么还是这么多?我的图呢,被狗吃了?然后进行了持续8小时的旷日的持久BUG之旅,前前后后各种信息都尝试了,还是没找出来,就在我特么快绝望的时候,突然想起一种情况
会不会是MD5的加密,导致前后两张图片的命名一样,虽然它们的请求链接不一样,但是没准加密后命名一样呢?如果一样,就会在保存的时候替换掉已经下载好的一样命名的图片。这样就会导致图片大量减少。
然后改代码

gai

赶紧去看了一眼项目文件

gai

心里一万个曹尼玛奔腾而过,这个坑死人的MD5,还是老老实实改成时间戳把。

全文到此结束。

posted on 2018-11-10 13:33  进击中的青年  阅读(1352)  评论(0编辑  收藏  举报