04 2020 档案

摘要:就简单用队列调度器实现了并发的爬虫。 阅读全文
posted @ 2020-04-24 09:00 公子若不胖天下谁胖 阅读(893) 评论(0) 推荐(2)
摘要:上篇文章当中实现了单任务版爬虫。 那么这篇文章就大概说下,如何在上一个版本中进行升级改造,使之成为一个多任务版本的爬虫。加快我们爬取的速度。 话不多说,先看图: 其实呢,实现方法就是加了一个scheduler的模块,所有的request都由scheduler去交给worker。 另外呢,这里的wor 阅读全文
posted @ 2020-04-19 21:58 公子若不胖天下谁胖 阅读(697) 评论(0) 推荐(0)
摘要:目的是写一个golang并发爬虫版本的演化过程。 那么在演化之前,当然是先跑通一下单任务版本的架构。 正如人走路之前是一定要学会爬走一般。 首先看一下单任务版本的爬虫架构,如下: 这是单任务版本爬虫的一个架构: 第一步是将seed送到engine里去。 第二步是将seed里的url给到fetcher 阅读全文
posted @ 2020-04-18 13:54 公子若不胖天下谁胖 阅读(788) 评论(0) 推荐(0)