04 2020 档案
摘要:就简单用队列调度器实现了并发的爬虫。
阅读全文
摘要:上篇文章当中实现了单任务版爬虫。 那么这篇文章就大概说下,如何在上一个版本中进行升级改造,使之成为一个多任务版本的爬虫。加快我们爬取的速度。 话不多说,先看图: 其实呢,实现方法就是加了一个scheduler的模块,所有的request都由scheduler去交给worker。 另外呢,这里的wor
阅读全文
摘要:目的是写一个golang并发爬虫版本的演化过程。 那么在演化之前,当然是先跑通一下单任务版本的架构。 正如人走路之前是一定要学会爬走一般。 首先看一下单任务版本的爬虫架构,如下: 这是单任务版本爬虫的一个架构: 第一步是将seed送到engine里去。 第二步是将seed里的url给到fetcher
阅读全文