爬虫常见的面试题1

一、我们获取数据的方式都有哪几种,分别是什么?

  • 企业生产数据

  • 数据平台购买数据

  • 政府机构公开数据

  • 数据管理咨询公司获取数据

  • 通过爬虫爬取数据

二、爬虫的简介

  • 爬虫定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

  • 爬虫的分类:

    • 通用爬虫:通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

    • 聚焦爬虫:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

三、浏览器请求url的过程

  • 浏览器首先会解析url,向url所对应的服务器发送请求。

  • 服务器会将该url所对应的html数据进行返回,浏览器收到返回的html,会继续请求html中css,js,images等静态资源,最终按照html的语法完整的显示到页面。

posted @ 2021-09-28 21:04  自信且从容  阅读(176)  评论(0编辑  收藏  举报