打造一个迷你爬虫架构

 

网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:

  • 通用网络爬虫(General Purpose Web Crawler)
  • 聚焦网络爬虫(Focused Web Crawler)
  • 增量式网络爬虫(Incremental Web Crawler)
  • 深层网络爬虫(Deep Web Crawler)

  实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

通用网络爬虫

通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬取对象从一些种子 URL 扩充到整个 Web。主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。

通用网络爬虫的结构大致可以分为

  页面爬取模块 、页面分析模块、链接过滤模块、页面存储模块、URL 队列、初始 URL 集合几个部分。

  为提高工作效率,通用网络爬虫会采取一定的爬取策略。 常用的爬取策略有:深度优先策略、广度优先策略。

    1) 深度优先策略(DFS):其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。

    2) 广度优先策略(BFS):此策略按照网页内容目录层次深浅来爬取页面,处于较浅目录层次的页面首先被爬取。 当同一层次中的页面爬取完毕后,爬虫再深入下一层继续爬取。

聚焦网络爬虫

聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬取那些与预先定义好的主题相关页面的网络爬虫。

  和通用网络爬虫相比,聚焦爬虫只需要爬取与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。

  爬的歌单就属于这一种。

增量式网络爬虫

增量式网络爬虫(Incremental Web Crawler)是 指对已下载网页采取 增量式更新和只爬取新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬取的页面是尽可能新的页面。

  和周期性爬取和刷新页面的网络爬虫相比,增量式爬虫只会在需要的时候爬取新产生或发生更新的页面 ,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬取的网页,减小时间和空间上的耗费。

  但是增加了爬取算法的复杂度和实现难度。现在比较火的舆情爬虫一般都是增量式网络爬虫。

深网爬虫

Web 页面按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web,也称 Invisible Web Pages 或 Hidden Web)。

  表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的 Web 页面。

  Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页就属于 Deep Web。

 

迷你爬虫框架

    

代码结构:

  

  • config_load.py    配置文件加载
  • crawl_thread.py    爬取线程
  • mini_spider.py    主线程
  • spider.conf    配置文件
  • url_table.py    url队列、url表
  • urls.txt    种子url集合
  • webpage_parse.py    网页分析
  • webpage_save.py    网页存储

 spider.conf

 

Step 1. 采用BFS还是DFS?

理论上,这两个算法都能够在大致相同的时间里爬取整个互联网上的内容。但显然各个网站最重要的网页应该是它的首页。

  在极端情况下,如果只能下载非常有限的网页,那么应该下载的所有网站的首页,如果把爬虫再扩大些,应该爬取从首页直接链接的网页,因为这些网页是网站设计者自己认为相当重要的网页。

  在这个前提下,显然BFS明显优于DFS。事实上在搜索引擎的爬虫里,主要采用的就是BFS。我们的框架采取这种策略。

抓取深度可以通过配置文件中的max_depth设置,只要没到达指定深度,程序就会不停的将解析出的url放入队列中:

mini_spider.py

 

Step 2. 初始URL集合、URL队列

我们来看看通用爬虫如何下载整个互联网。

  假设从一家门户网站的首页出发,先下载这个网页(深度=0),然后通过分析这个网页,可以找到页面里的所有超链接,也就等于知道了这家门户网站首页所直接连接的全部网页,诸如京东理财、京东白条,京东众筹等(深度=1)。

  接下来访问、下载并分析京东理财等网页,又能找到其他相连的网页(深度=2)。

  让计算机不停的做下去,就能下载整个网站。

在这个过程中,我们需要一个“初始URL集合”保存门户的首页,还需要一个“URL队列”保存分析网页得到的超链接。

 mini_spider.py

 

url_table.py

 

Step 3. 记录哪些网页已经下载过的小本本——URL表

在互联网上,一个网页可能被多个网页中的超链接所指向。

  这样在遍历互联网这张图的时候,这个网页可能被多次访问到。为了防止一个网页被下载和解析多次,需要一个URL表记录哪些网页已经下载过。再遇到这个网页的时候,我们就可以跳过它。

 crawl_thread.py

 

Step 4. 多个抓取线程

为了提升爬虫性能,需要多个抓取线程,从URL队列获取链接进行处理。

  多线程并没什么毛病,但Python的多线程可能会引起很多人的质疑,这源于Python设计之初的考虑:GIL。

  GIL的全称是Global Interpreter Lock(全局解释器锁),某个线程想要执行,必须先拿到GIL,并且在一个Python进程中,GIL只有一个。

  结果就是Python里一个进程永远只能同时执行一个线程,这就是为什么在多核CPU上,Python的多线程效率并不高。那么我们为什么还要用Python多线程呢?

  CPU密集型代码(各种循环处理、编解码等等),在这种情况下,由于计算工作多,ticks计数很快就会达到阈值,然后触发GIL的释放与再竞争(多个线程来回切换当然是需要消耗资源的),Python下的多线程对CPU密集型代码并不友好。

  IO密集型代码(文件处理、网络爬虫等),多线程能够有效提升效率(单线程下有IO操作会进行IO等待,造成不必要的时间浪费,而开启多线程能在线程A等待时,自动切换到线程B,可以不浪费CPU的资源,从而能提升程序执行效率)。Python的多线程对IO密集型代码比较友好。

  所以,对于IO密集的爬虫程序,使用Python多线程是没问题的。

 crawl_thread.py

 

Step 5. 页面分析模块

从网页中解析出URLs或者其他有用的数据。

Step 6. 页面存储模块

保存页面的模块,可以将文件保存为文件,还可以扩展出多种存储方式,如mysql,mongodb,hbase等等。

 webpage_save.py

 

 

总结:

  步骤:

  1. Step 1. 采用BFS还是DFS?
  2. Step 2. 初始URL集合、URL队列
  3. Step 3. 记录哪些网页已经下载过的小本本——URL表。
  4. Step 4. 多个抓取线程
  5. Step 5. 页面分析模块
  6. Step 6. 页面存储模块

 

本文来自:https://www.cnblogs.com/tuohai666/p/8853601.html

 

posted @ 2019-08-24 12:03  JamJarBranch  阅读(135)  评论(0编辑  收藏  举报