网络爬虫概述笔记

网络爬虫概述

  • 什么是网络爬虫?
    通俗理解:爬虫是一个模拟人类请求网站行为的程序,可以自动请求网页,并抓取下来,然后用一定的规则提取有价值的数据。

通用爬虫和聚焦爬虫

  • 通用爬虫
    是搜索引擎抓取系统的重要组成部分。主要是将互联网的内容下载到本地,形成一个互联网内容的镜像备份。
  • 聚焦爬虫
    是面向特定需求的一种网络爬虫程序,他与通用爬虫的区别在于:聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理,尽量保证只抓取与需求相关的网页信息
posted @ 2019-07-11 22:15  Atomyzd  阅读(95)  评论(0编辑  收藏  举报